搜索【MADDPG】的结果

项目3：合作与竞争介绍在这种环境下，两名特工控制球拍在球网上弹跳球。如果探员将球击中网，则得到+0.1的奖励。如果探员让一个球击中地面或越界将球击中，则其收益为-0.01。因此，每个特工的目标是保持比赛中的球权。观察空间由8个变量组成，分别对应于球和球拍的位置和速度。每个代理都会收到自己的本地观察结果。有两个连续的动作可用，分别对应于朝向（或远离）网络的运动和跳跃。下图显示了最终的奖励进度。环境在1820集中得到解决算法：为了解决此环境，我实现了Multi-DDPG算法。实现的功能如下：每个特工都有独立的演员和评论家集中培训：每个代理的批评者不仅将自己的演员的行为和状态作为输入，而且还将所有其他代理的状态和行为作为输入。由于在测试过程中仅使用参与者，并且参与者仅取决于相应参与者的状态，因此代理可以自由地学习自己的奖励结构。下图[来源：：

2021-06-09 20:21:22 45.93MB reinforcement-learning robotics tennis agents

1

maddpg:论文“混合合作竞争环境中的多代理Actor-Critic”中的MADDPG算法代码

状态：存档（代码按原样提供，预计不会更新）多代理深度确定性策略梯度（MADDPG）这是用于实现论文中提出的MADDPG算法的代码：。它被配置为与一起运行。注意：自原始论文以来，此代码库已进行了重组，结果可能与论文中所报告的有所不同。更新：可以在找到策略集合和策略估计的原始实现。该代码按原样提供。安装要安装，请cd进入根目录，然后键入pip install -e . 已知依赖项：Python（3.5.4），OpenAI Gym（0.10.5），tensorflow（1.8.0），numpy（1.14.5）案例研究：多代理粒子环境我们在这里演示如何将代码与结合使用。按照README文件的说明下载并安装MPE代码。确保已将multiagent-particle-envs添加到您的PYTHONPATH （例如， ~/.bashrc或~/.bash_profile

2021-06-01 11:07:21 16KB paper 附件源码 文章源码

1

maddpg-keras:在Keras中实现多代理深度确定性策略梯度（MADDPG）算法-源码

马迪克-凯拉斯在Keras中实现多代理深度确定性策略梯度（MADDPG）算法

2021-05-09 23:13:45 7.86MB Python

1

Multi-Agent-Deep-Deterministic-Policy-Gradients:多主体深度确定性策略梯度（MADDPG）算法的Pytorch实现-源码

多代理深确定性策略梯度多主体深度确定性策略梯度（MADDPG）算法的Pytorch实现这是我在论文中提出的算法的实现：“针对混合合作竞争环境的多主体Actor评论家”。您可以在这里找到本文： : 您将需要安装多代理粒子环境（MAPE），可以在这里找到： : 确保创建具有MAPE依赖项的虚拟环境，因为它们有些过时了。我还建议使用PyTorch 1.4.0版运行此程序，因为最新版本（1.8）似乎与我在计算批评者损失时使用的就地操作存在问题。将主存储库克隆到与MAPE相同的目录中可能是最容易的，因为主文件需要该软件包中的make_env函数。可以在以下位置找到本教程的视频： :

2021-05-09 23:12:07 6KB reinforcement-learning deep-reinforcement-learning actor-critic-methods actor-critic-algorithm

1

论文研究-一种基于MADDPG的AGV动态避障方法 .pdf

一种基于MADDPG的AGV动态避障方法，周能，刘晓平，深度增强学习将深度学习的感知能力和增强学习的决策能力相结合，在智能控制，机器人控制及预测分析等领域有广泛应用空间。本文将

2019-12-21 21:40:17 330KB 自动控制技术

1

个人信息

热门下载

最新下载

其他资源