要求 python - 3.7 keras - 2.4.3 tensorflow - 2.2.0 项目1:车杆 介绍 在此任务中,我们必须在购物车顶部平衡一根杆。 动作空间的数量为2。此处动作空间是离散的。 0向左移动购物车 1向右移动购物车 我在大约60集中使用DQN解决了这个问题。 以下是得分与情节的关系图。 项目2:山地车 介绍 在此任务中,我们必须教车达到山顶处的目标位置。 操作空间的数量为3。在这种环境下,操作空间是离散的。 0向左移动汽车 1什么也不做 2向右移动汽车 我在大约15集中使用DQN解决了此问题。 以下是得分与情节的关系图。 项目3:Pendulam 介绍 在此任务中,我们必须平衡摆锤的颠倒状态。 作用空间的数量为1,这是施加在关节上的扭矩。 动作空间在这里是连续的。 0扭矩[-2,2] 我在大约100集中使用DDPG解决了这个问题。 以下是得分与情节的
1
rl迷宫 OpenAI体育馆中用于强化学习解决方案的迷宫环境
2021-12-05 15:26:59 18KB JupyterNotebook
1
深度SARSA和深度Q学习-LunarLander-v2 环境 在这个项目中,我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境,其目的是教导登月舱模块安全地着陆在固定在点(0,0)的着陆垫上。该代理具有3个推进器:一个在模块的底部,另一个在模块的每一侧。因此,代理人在每个时间步长都有4种可能的动作可供选择:发射每个推进器或什么也不做。给予坐席的奖励取决于许多因素:发射底部推进器会产生-0.3的奖励,而发射侧面推进器会产生-0.03的奖励。如果探员安全地降落在着陆垫上,将获得+100分的奖励,此外,与地面接触的模块的每条腿都将获得+10分的奖励。当代理程序着陆或崩溃时,已达到终端状态。为了检测终端状态,可以提取一个状态向量,该状态向量指示代理的位置,其当前速度和环境着陆标志,以指示腿是否与地面接触。还可以提取代表环境中代理图片的RGB阵列。最后,要解决此问题并确定
1
OpenAI 成功训练了一个能够从文本标题生成图像的网络。 它与 GPT-3 和 Image GPT 非常相似,并产生了惊人的结果。
2021-11-25 20:02:04 9.13MB ai ieee论文 代码 复现
MPE-多主体强化学习算法 MPE 这是使用OpenAI Multi-Agent RL的简单验证实验代码。 该环境总结了许多基准,并最初为算法做准备。 由于环境设置简单, MPE似乎是验证我们新的Multi-Agent RL算法并与其他基准进行比较的良好玩具实验环境。 我为您编写了一些著名的多主体RL算法,以便您可以更改较少的代码来实现自己的算法并验证实验结果。 笔记: 如果要成功运行此MPE环境,则必须确保已下载 。 但是,我已经将基准的文件推送到项目中,如果您发现从OpenAI下载的基准有任何问题,则可以使用我的文件。 要求 Python> = 3.6.0 PyTorch == 1.2.0 OpenAI体育馆== 0.10.5 演算法 待办事项清单 评估和渲染 数字与比较 上传训练模型.pt 致谢 我一直以硕士生的身份学习。 我的代码和对算法的理解可能存在一些问
2021-11-23 10:03:43 3.62MB Python
1
PPO-Keras Keras实施PPO解决OpenAI体育馆环境
2021-11-14 18:28:22 4KB Python
1
安装openAI的gym进行强化学习时,经常会遇到需要安装Box2D的情况,本资源为其Linux(Ubuntu)下的源码安装包。
2021-11-08 22:48:58 1.39MB gym pyBox2D 源码安装
1
OpenAI体育馆的飞扬的小鸟 该存储库包含用于Flappy Bird游戏的OpenAI Gym环境的实现。 它基于的 。 当前,环境为代理提供以下观察参数: 鸟的y位置; 鸟的垂直速度; 到下一个管道的水平距离; 下一个管道的y位置。 将来,我还打算实现一个环境版本,该版本将提供代表游戏屏幕的图像作为观察结果。 安装 要安装flappy-bird-gym ,只需运行以下命令: $ pip install flappy-bird-gym 用法 像在其他gym环境中一样,使用flappy-bird-gym非常容易。 只需导入包并使用make函数创建环境。 看下面的示例代码: import time import flappy_bird_gym env = flappy_bird_gym.make("FlappyBird-v0") obs = env.reset() while
1
OpenAI对GPT-2 WebText数据集的开放式克隆
2021-10-29 19:02:38 14KB Python开发-自然语言处理
1
Gym-Duckietown 于OpenAI Gym的自动驾驶汽车模拟器环境。 如果要在出版物中引用此存储库,请使用此bibtex: @misc{gym_duckietown, author = {Chevalier-Boisvert, Maxime and Golemo, Florian and Cao, Yanjun and Mehta, Bhairav and Paull, Liam}, title = {Duckietown Environments for OpenAI Gym}, year = {2018}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/duckietown/gym-duckietown}},
2021-10-28 17:10:43 8.88MB simulator reinforcement-learning robot openai-gym
1