搜索【gym】的结果

强化学习——OpenAI Gym——环境理解和显示本文以CartPole为例。新建Python文件，输入 import gym env = gym.make("CartPole-v0") # 定义使用gym库中的环境：CartPole env = env.unwrapped # 打开包装 # 以上两句可换成 env = gym.make('CartPole-v0').unwrapped print(env.action_space) # 动作空间，输出的内容看不懂 print(en

2021-12-12 17:25:02 39KB AI 化学学习

1

OpenAIGym:解决OpenAI Gym问题-源码

要求 python - 3.7 keras - 2.4.3 tensorflow - 2.2.0 项目1：车杆介绍在此任务中，我们必须在购物车顶部平衡一根杆。动作空间的数量为2。此处动作空间是离散的。 0向左移动购物车 1向右移动购物车我在大约60集中使用DQN解决了这个问题。以下是得分与情节的关系图。项目2：山地车介绍在此任务中，我们必须教车达到山顶处的目标位置。操作空间的数量为3。在这种环境下，操作空间是离散的。 0向左移动汽车 1什么也不做 2向右移动汽车我在大约15集中使用DQN解决了此问题。以下是得分与情节的关系图。项目3：Pendulam 介绍在此任务中，我们必须平衡摆锤的颠倒状态。作用空间的数量为1，这是施加在关节上的扭矩。动作空间在这里是连续的。 0扭矩[-2，2] 我在大约100集中使用DDPG解决了这个问题。以下是得分与情节的

2021-12-06 16:50:57 15.06MB machine-learning reinforcement-learning deep-learning tensorflow

1

rl-gym-maze:OpenAI体育馆中用于强化学习解决方案的迷宫环境-源码

rl迷宫 OpenAI体育馆中用于强化学习解决方案的迷宫环境

2021-12-05 15:26:59 18KB JupyterNotebook

1

reinforcement_learning_ppo_rnd:在 Tensorflow 2 和 Pytorch 中使用近端策略优化和随机网络蒸馏进行深度强化学习，并附有一些解释-源码

PPO-RND 通过在 Tensorflow 2 和 Pytorch 中使用近端策略优化和随机网络蒸馏来演示深度强化学习的简单代码版本 2 和其他进展版本 2 将带来代码质量和性能的改进。我重构了代码，以便它遵循 OpenAI 基线上 PPO 实现中的算法。我还使用了称为 Truly PPO 的更新版本的 PPO，它比 OpenAI 的 PPO 具有更高的样本效率和性能。目前，我专注于如何在更困难的环境（Atari 游戏、MuJoCo 等）中实施这个项目。使用 Pytorch 和 Tensorflow 2 清理代码使用真正的 PPO 添加更复杂的环境添加更多说明入门该项目使用 Pytorch 和 Tensorflow 2 作为深度学习框架，使用 Gym 作为强化学习环境。虽然不是必需的，但我建议在具有 GPU 和 8 GB 内存的 PC 上运行此项目先决

2021-11-30 12:09:22 3.45MB reinforcement-learning deep-reinforcement-learning pytorch gym

1

Deep-Q-Learning-Deep-SARSA-LunarLander-v2:将深度强化学习算法Deep SARSA和Deep Q-Learning应用于OpenAI Gym的LunarLander-v2-源码

深度SARSA和深度Q学习-LunarLander-v2 环境在这个项目中，我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境，其目的是教导登月舱模块安全地着陆在固定在点（0,0）的着陆垫上。该代理具有3个推进器：一个在模块的底部，另一个在模块的每一侧。因此，代理人在每个时间步长都有4种可能的动作可供选择：发射每个推进器或什么也不做。给予坐席的奖励取决于许多因素：发射底部推进器会产生-0.3的奖励，而发射侧面推进器会产生-0.03的奖励。如果探员安全地降落在着陆垫上，将获得+100分的奖励，此外，与地面接触的模块的每条腿都将获得+10分的奖励。当代理程序着陆或崩溃时，已达到终端状态。为了检测终端状态，可以提取一个状态向量，该状态向量指示代理的位置，其当前速度和环境着陆标志，以指示腿是否与地面接触。还可以提取代表环境中代理图片的RGB阵列。最后，要解决此问题并确定

2021-11-29 16:39:04 10.34MB machine-learning reinforcement-learning machine-learning-algorithms deep-reinforcement-learning

1

Ruby-fastlane快车道Fastfile脚本gym文件编写套用自动打包ipa上传蒲公英AppStore

fastlane 快车道Fastfile脚本gym文件编写套用自动打包ipa 上传蒲公英/App Store

2021-11-09 14:23:25 531KB Ruby开发-其它杂项

1

openAI gym配套的软件包。

安装openAI的gym进行强化学习时，经常会遇到需要安装Box2D的情况，本资源为其Linux（Ubuntu）下的源码安装包。

2021-11-08 22:48:58 1.39MB gym pyBox2D 源码安装

1

Teansorflow 1.4 gpu版+Keras+Gym离线安装包（windows）

安装方法：Anaconda3自带的conda prompt下面，输入"pip install + 各个whl文件或tar.gz“文件的完整路径名，或输入pip install之后，将文件拖至conda prompt即可。注意各whl有安装顺序要求，一试便知。 Keras为最新的2.1.3版，强化学习资源GYM为最新的0.9.4版 Win10用户需要以管理员运行conda prompt

2021-11-04 20:53:57 79.22MB tensorflow keras gym离线安装

1

flappy-bird-gym：Flappy Bird游戏的OpenAI Gym环境-源码

OpenAI体育馆的飞扬的小鸟该存储库包含用于Flappy Bird游戏的OpenAI Gym环境的实现。它基于的。当前，环境为代理提供以下观察参数：鸟的y位置；鸟的垂直速度；到下一个管道的水平距离；下一个管道的y位置。将来，我还打算实现一个环境版本，该版本将提供代表游戏屏幕的图像作为观察结果。安装要安装flappy-bird-gym ，只需运行以下命令： $ pip install flappy-bird-gym 用法像在其他gym环境中一样，使用flappy-bird-gym非常容易。只需导入包并使用make函数创建环境。看下面的示例代码： import time import flappy_bird_gym env = flappy_bird_gym.make("FlappyBird-v0") obs = env.reset() while

2021-11-02 15:24:42 6.5MB game machine-learning reinforcement-learning flappy-bird

1

gym-duckietown:Duckietown宇宙的自动驾驶汽车模拟器-源码

Gym-Duckietown 于OpenAI Gym的自动驾驶汽车模拟器环境。如果要在出版物中引用此存储库，请使用此bibtex： @misc{gym_duckietown, author = {Chevalier-Boisvert, Maxime and Golemo, Florian and Cao, Yanjun and Mehta, Bhairav and Paull, Liam}, title = {Duckietown Environments for OpenAI Gym}, year = {2018}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/duckietown/gym-duckietown}},

2021-10-28 17:10:43 8.88MB simulator reinforcement-learning robot openai-gym

1

个人信息

热门下载

最新下载

其他资源