项目3:合作与竞争 介绍 在这种环境下,两名特工控制球拍在球网上弹跳球。 如果探员将球击中网,则得到+0.1的奖励。 如果探员让一个球击中地面或越界将球击中,则其收益为-0.01。 因此,每个特工的目标是保持比赛中的球权。 观察空间由8个变量组成,分别对应于球和球拍的位置和速度。 每个代理都会收到自己的本地观察结果。 有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳跃。 下图显示了最终的奖励进度。 环境在1820集中得到解决 算法: 为了解决此环境,我实现了Multi-DDPG算法。 实现的功能如下: 每个特工都有独立的演员和评论家 集中培训:每个代理的批评者不仅将自己的演员的行为和状态作为输入,而且还将所有其他代理的状态和行为作为输入。 由于在测试过程中仅使用参与者,并且参与者仅取决于相应参与者的状态,因此代理可以自由地学习自己的奖励结构。 下图[来源: :
2021-06-09 20:21:22 45.93MB reinforcement-learning robotics tennis agents
1
状态:存档(代码按原样提供,预计不会更新) 多代理深度确定性策略梯度(MADDPG) 这是用于实现论文中提出的MADDPG算法的代码: 。 它被配置为与一起运行。 注意:自原始论文以来,此代码库已进行了重组,结果可能与论文中所报告的有所不同。 更新:可以在找到策略集合和策略估计的原始实现。 该代码按原样提供。 安装 要安装,请cd进入根目录,然后键入pip install -e . 已知依赖项:Python(3.5.4),OpenAI Gym(0.10.5),tensorflow(1.8.0),numpy(1.14.5) 案例研究:多代理粒子环境 我们在这里演示如何将代码与结合使用。 按照README文件的说明下载并安装MPE代码。 确保已将multiagent-particle-envs添加到您的PYTHONPATH (例如, ~/.bashrc或~/.bash_profile
2021-06-01 11:07:21 16KB paper 附件源码 文章源码
1
马迪克-凯拉斯 在Keras中实现多代理深度确定性策略梯度(MADDPG)算法
2021-05-09 23:13:45 7.86MB Python
1
多代理深确定性策略梯度 多主体深度确定性策略梯度(MADDPG)算法的Pytorch实现 这是我在论文中提出的算法的实现:“针对混合合作竞争环境的多主体Actor评论家”。 您可以在这里找到本文: : 您将需要安装多代理粒子环境(MAPE),可以在这里找到: : 确保创建具有MAPE依赖项的虚拟环境,因为它们有些过时了。 我还建议使用PyTorch 1.4.0版运行此程序,因为最新版本(1.8)似乎与我在计算批评者损失时使用的就地操作存在问题。 将主存储库克隆到与MAPE相同的目录中可能是最容易的,因为主文件需要该软件包中的make_env函数。 可以在以下位置找到本教程的视频: :
1
一种基于MADDPG的AGV动态避障方法,周能,刘晓平,深度增强学习将深度学习的感知能力和增强学习的决策能力相结合,在智能控制,机器人控制及预测分析等领域有广泛应用空间。本文将
2019-12-21 21:40:17 330KB 自动控制技术
1