RL飞扬的鸟 概述 该项目是强化学习的基本应用。 它集成了以使用DQN来训练代理。 预训练模型在单个GPU上以3M步进行训练。 您可以找到解释培训过程的,或。 构建项目并运行 该项目支持使用Maven进行构建,您可以使用以下命令进行构建: mvn compile 以下命令将开始在没有图形的情况下进行训练: mvn exec:java -Dexec.mainClass="com.kingyu.rlbird.ai.TrainBird" 上面的命令将从头开始训练。 您也可以尝试使用预先训练的体重进行训练: mvn exec:java -Dexec.mainClass="com.kingyu.rlbird.ai.TrainBird" -Dexec.args="-p" 要直接使用模型进行测试,您可以执行以下操作 mvn exec:java -Dexec.mainClass="com.ki
2022-11-27 22:41:34 8.43MB java reinforcement-learning deep-learning dqn
1
pytorch-DQN DQN的Pytorch实现 DQN 最初的Q学习使用表格方法(有关更多详细信息和实现,请参见 )来解决,但是,表格Q学习的问题在状态增长时出现因为table不足以存储环境中给定的数亿个状态。 例如,环境为210x180黑白像素的游戏。 将有$ 2 ^ {180 * 210} $个可能的状态,对于一个表来说,这太多了。 DeepMind通过深度神经网络以DQN形式将DQN形式的深度学习和Q学习相结合,以近似值,首先在游戏中击败人类。 简而言之,DQN用深度神经网络(CNN或DNN)替换了表格,并使用目标网络来执行Bellman方程更新。 为了实现它,使用了一些技巧,例如目标网络和体验重播。 引入目标网络以收敛模型,因为频繁更新会使模型处于不稳定状态。 体验重播使用缓冲区存储所有过去(状态,动作,next_state)对,并通过对过去的体验进行采样来训练模型,这有
2022-11-23 09:47:12 1.5MB Python
1
强化学习 dqn打砖块 参数文件,最高回报七十四分
2022-11-05 14:06:04 6.44MB 参数文件
1
详细研究了深度Q-学习算法,它形成了深度Q网络(DQN)的基础这可能是当今强化学习中最具创新性的领域。这里将逐步介绍DQN,包括一些改变游戏规则的创新,如体验回放,以准确了解它们是如何帮助dqn在首次引入时实现世界一流的结果的。
2022-10-31 09:08:47 1.29MB 强化学习 机器学习 DQN
1
DQN实现matlab强化学习,解决倒立摆问题
2022-10-28 16:17:05 1KB pendulum SIMULINK MATLAB实现DQN DQN
1
第7课 强化学习中的深度Q网络(DQN)
2022-10-17 13:05:36 570KB 强化学习 DQN
1
DQN_Pytorch_ROS 该项目的目标是在OpenAI Gym和Gazebo提供的模拟环境中使用Pytorch训练强化学习算法,并通过ROS(机器人操作系统)控制代理。 最后,经过训练的模型将使用称为Turtlebot的机器人部署到现实世界中。 环境,代理商,任务,行动和奖励 由OpenAI Gym和Gazebo生成的模拟环境是一个迷宫,该代理是一个虚拟的Turtlebot,其顶部具有一个带激光雷达的移动平台。 解决的任务是学习一种策略,以使机器人在每种状态下在捕获和过滤的激光束方向上与任何障碍物之间的距离都不比可配置距离(默认为0.2米)更近。 可以通过变量在文件$HOME/python3_ws/src/openai_ros/openai_ros/src/openai_ros/task_envs/turtlebot2/config/turtlebot2_maze.yaml此值:
2022-10-03 23:26:18 21.18MB Python
1
DQN-PyTorch 实现PyTorch 目录: 项目结构: ├── agents | └── dqn.py # the main training agent for the dqn ├── graphs | └── models | | └── dqn.py | └── losses | | └── huber_loss.py # contains huber loss definition ├── datasets # contains all dataloaders for the project ├── utils # utilities folder containing input extraction, replay memory, config parsing, etc | └── assets | └── replay_memory.py |
1
深度Q学习 在OpenAI Gym上测试了具有基本或双重q-learning训练算法的深度q-networn,对决q-network的实现。 先决条件 该项目是使用Python 3.5和Tensorflow(通过tensorflow-gpu 1.2.1测试)实现的。 可用的环境来自OpenAi Gym。 要安装健身房,请访问 。 要工作需要来自atari_wrappers.py 训练网络 使用train.py模块执行网络培训。 它要求将要学习的体育馆环境作为参数。 可选地,可以指定要使用的网络类型和学习算法。 可以使用--checkpoint参数提供网络权重,使用--training_info参数提供培训状态(例如,当前步骤,总步骤,体验重播缓冲区数据)从检查点重新开始培训。 通过使用--checkpoint_step,可以指定保存检查点的步骤数。 python train.py --
2022-09-04 11:47:40 9KB Python
1
边做边学深度强化学习:PyTorch程序设计实践 倒立摆 DQN 实现
2022-09-02 22:05:29 440KB 边做边学深度强化学习
1