强化学习在二十一点 用于玩二十一点变体的几种强化学习算法的实现 为了运行所有算法,只需运行 main.py。 这将执行 test_all_algorithms() 函数,该函数运行 MC、SARSA 和线性函数近似与 SARSA,并带有显示结果的图。 其他模块的详细信息: environment.py - 包含 step() 函数和环境的实现 rl_algorithms - 包含 MC、SARSA 和线性函数逼近 plotting.py - 包含绘制值函数、SARSA 和 LFA 结果的函数 policy.py - 放置策略的地方,目前只包含 epsilon 贪婪策略 Utility.py - 计算均方误差并将状态转换为 LFA 的特征向量
2021-12-05 10:16:46 14KB Python
1
深度SARSA和深度Q学习-LunarLander-v2 环境 在这个项目中,我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境,其目的是教导登月舱模块安全地着陆在固定在点(0,0)的着陆垫上。该代理具有3个推进器:一个在模块的底部,另一个在模块的每一侧。因此,代理人在每个时间步长都有4种可能的动作可供选择:发射每个推进器或什么也不做。给予坐席的奖励取决于许多因素:发射底部推进器会产生-0.3的奖励,而发射侧面推进器会产生-0.03的奖励。如果探员安全地降落在着陆垫上,将获得+100分的奖励,此外,与地面接触的模块的每条腿都将获得+10分的奖励。当代理程序着陆或崩溃时,已达到终端状态。为了检测终端状态,可以提取一个状态向量,该状态向量指示代理的位置,其当前速度和环境着陆标志,以指示腿是否与地面接触。还可以提取代表环境中代理图片的RGB阵列。最后,要解决此问题并确定
1
经过算法改进,实现了比Q学习更快的收敛速度,可以快速的找到最短路径,程序使用了matlab语言,适合初学者,也适合科研硕士研究。
2021-11-28 12:07:36 49KB matlab 路径规划 人工智能 强化学习
火炬RL RL方法的Pytorch实现 支持具有连续和离散动作空间的环境。 支持具有1d和3d观察空间的环境。 支持多进程环境 要求 一般要求 火炬1.7 健身房(0.10.9) Mujoco(1.50.1) 列表(用于日志) tensorboardX(日志文件输出) 张量板要求 Tensorflow:启动tensorboard或读取tf记录中的日志 安装 使用use environment.yml创建虚拟环境 conda create -f environment.yml source activate py_off 手动安装所有要求 用法 在配置文件中指定算法的参数,并在参数中指定日志目录/种子/设备 python examples/ppo_continuous_vec.py --config config/ppo_halfcheetah.json --seed 0 --device 0 --id ppo_halfcheetah 结帐示例文件夹以获取详细信息 目前包含: 政策上的方法: 加强 A2C(演员评论家) PPO(近端政策优化)
2021-11-23 11:43:20 170KB algorithm reinforcement-learning pytorch dqn
1
资源其中包括A3C ,DQN ,PPO,概率图论及Sutton强化学习导论的教材等,具有很好的学习价值
2021-10-08 18:49:53 34.01MB Reinforcement le
1
广告优化:使用强化学习算法(如汤普森采样和上限可信度)来优化最佳广告
1
gym-gazebo2是一个工具包,用于开发和比较使用ROS 2和Gazebo的强化学习算法
2021-09-28 20:41:16 5.68MB Python开发-机器学习
1
研究了基于深度强化学习算法的自主式水下航行器(AUV)深度控制问题。区别于传统的控制算法,深度强化学习方法让航行器自主学习控制律,避免人工建立精确模型和设计控制律。采用深度确定性策略梯度方法设计了actor与critic两种神经网络。actor神经网络给出控制策略,critic神经网络用于评估该策略,AUV的深度控制可以通过训练这两个神经网络实现。在OpenAI Gym平台上仿真验证了算法的有效性。
1
TensorFlow2中的深度强化学习 是一个使用实现各种流行的深度强化学习算法的存储库。 该存储库的关键是易于理解的代码。 因此,如果您是学生或研究深度强化学习的研究人员,我认为这是使用此存储库学习的最佳选择。 一种算法仅依赖于一个python脚本文件。 因此,您不必进出不同的文件即可研究特定的算法。 该存储库将不断更新,并将继续添加新的“深度强化学习”算法。 演算法 DQN 纸上 作者Volodymyr Mnih,Koray Kavukcuoglu,David Silver,Alex Graves,Ioannis Antonoglou,Daan Wierstra,Martin Rie
1
Reinforcement Learning implementations and research prototyping in TensorFlow
2021-09-14 19:33:33 128KB Python开发-机器学习
1