第7课 强化学习中的深度Q网络(DQN)
2022-10-17 13:05:36 570KB 强化学习 DQN
1
DQN_Pytorch_ROS 该项目的目标是在OpenAI Gym和Gazebo提供的模拟环境中使用Pytorch训练强化学习算法,并通过ROS(机器人操作系统)控制代理。 最后,经过训练的模型将使用称为Turtlebot的机器人部署到现实世界中。 环境,代理商,任务,行动和奖励 由OpenAI Gym和Gazebo生成的模拟环境是一个迷宫,该代理是一个虚拟的Turtlebot,其顶部具有一个带激光雷达的移动平台。 解决的任务是学习一种策略,以使机器人在每种状态下在捕获和过滤的激光束方向上与任何障碍物之间的距离都不比可配置距离(默认为0.2米)更近。 可以通过变量在文件$HOME/python3_ws/src/openai_ros/openai_ros/src/openai_ros/task_envs/turtlebot2/config/turtlebot2_maze.yaml此值:
2022-10-03 23:26:18 21.18MB Python
1
DQN-PyTorch 实现PyTorch 目录: 项目结构: ├── agents | └── dqn.py # the main training agent for the dqn ├── graphs | └── models | | └── dqn.py | └── losses | | └── huber_loss.py # contains huber loss definition ├── datasets # contains all dataloaders for the project ├── utils # utilities folder containing input extraction, replay memory, config parsing, etc | └── assets | └── replay_memory.py |
1
深度Q学习 在OpenAI Gym上测试了具有基本或双重q-learning训练算法的深度q-networn,对决q-network的实现。 先决条件 该项目是使用Python 3.5和Tensorflow(通过tensorflow-gpu 1.2.1测试)实现的。 可用的环境来自OpenAi Gym。 要安装健身房,请访问 。 要工作需要来自atari_wrappers.py 训练网络 使用train.py模块执行网络培训。 它要求将要学习的体育馆环境作为参数。 可选地,可以指定要使用的网络类型和学习算法。 可以使用--checkpoint参数提供网络权重,使用--training_info参数提供培训状态(例如,当前步骤,总步骤,体验重播缓冲区数据)从检查点重新开始培训。 通过使用--checkpoint_step,可以指定保存检查点的步骤数。 python train.py --
2022-09-04 11:47:40 9KB Python
1
边做边学深度强化学习:PyTorch程序设计实践 倒立摆 DQN 实现
2022-09-02 22:05:29 440KB 边做边学深度强化学习
1
深度强化学习的原理及其分类价值学习(DQN)、策略学习、Actor-critic原理讲解
2022-08-30 21:05:43 4.61MB
1
基于Pytorch实现的深度强化学习DQN算法源代码,具有超详细的注释,已经在诸多项目中得到了实际应用。主要包含2个文件:(1)dqn.py,实现DQN只能体的结构、经验重放池、Q神经网络、学习方法等;(2)runner.py,使用dqn.py中的智能体与环境进行交互与学习,并最终学会仿真月球车着陆游戏。
2022-08-29 11:05:46 8KB 强化学习 DQN 智能体 月球车着陆
1
基于DQN的交通信号控制Python+SUMO
2022-08-19 12:05:17 7KB 交通信号控制
1
本地QMIX 针对具有局部性假设的MARL设置的一种新的改进的DQN算法。 我们假设该问题具有一个基础的依赖关系图,该关系图连接了代理的相互作用
2022-07-28 16:37:23 4.37MB Python
1
基于Pytorch实现的DQN算法,环境是基于CartPole-v0的。在这个程序中,复现了整个DQN算法,并且程序中的参数是调整过的,直接运行。 DQN算法的大体框架是传统强化学习中的Q-Learning,只不过是Q-learning的深度学习版本。DQN的改进主要有三个: 1. DQN的行为值函数利用神经网络逼近; 2. DQN维护一个回放缓冲区,将每次从环境中采样得到的四元组数据存储到回放缓冲区中,训练 Q 网络的时候再从回放缓冲区中随机采样若干数据来进行训练; 3. DQN使用目标网络,使得算法的训练更加稳定。
2022-07-14 12:08:28 8KB DQN 强化学习 CartPole Pytorch
1