搜索【策略梯度】的结果

Multi-Agent-Deep-Deterministic-Policy-Gradients:多主体深度确定性策略梯度（MADDPG）算法的Pytorch实现-源码

多代理深确定性策略梯度多主体深度确定性策略梯度（MADDPG）算法的Pytorch实现这是我在论文中提出的算法的实现：“针对混合合作竞争环境的多主体Actor评论家”。您可以在这里找到本文： : 您将需要安装多代理粒子环境（MAPE），可以在这里找到： : 确保创建具有MAPE依赖项的虚拟环境，因为它们有些过时了。我还建议使用PyTorch 1.4.0版运行此程序，因为最新版本（1.8）似乎与我在计算批评者损失时使用的就地操作存在问题。将主存储库克隆到与MAPE相同的目录中可能是最容易的，因为主文件需要该软件包中的make_env函数。可以在以下位置找到本教程的视频： :

2021-05-09 23:12:07 6KB reinforcement-learning deep-reinforcement-learning actor-critic-methods actor-critic-algorithm

1

DeepReinforcementLearning-DDPG-for-RoboticsControl：这是名为深度确定性策略梯度（DDPG）的深度强化学习算法的实现，以训练4自由度机械臂达到移动目标。动作空间是连续的，学习的特工为机器人输出扭矩以移动到特定目标位置-源码

DDPGforRoboticsControl 这是名为深度确定性策略梯度（DDPG）的深度强化学习算法的实现，用于训练4自由度机械臂以达到移动目标。动作空间是连续的，学习的代理会输出扭矩以使机器人移动到特定的目标位置。环境一个包含20个相同代理的，每个代理都有其自己的环境副本。在这种环境下，双臂可以移动到目标位置。对于代理人的手在目标位置中的每一步，将提供+0.1的奖励。因此，座席的目标是在尽可能多的时间步中保持其在目标位置的位置。观察空间由33个变量组成，分别对应于手臂的位置，旋转，速度和角速度。每个动作是一个带有四个数字的向量，对应于适用于两个关节的扭矩。动作向量中的每个条目都应为-1和1之间的数字。解决环境您的特工平均得分必须为+30（超过100个连续剧集，并且超过所有特工）。具体来说，在每个情节之后，我们将每个代理商获得的奖励加起来（不打折），以获得每个

2021-04-29 11:38:55 20.38MB JupyterNotebook

1

DDPG_TF2：KerasTensorflow 2中的简单深度确定性策略梯度算法（DDPG）实现-源码

DDPG_TF2 很难在TF2中找到简单整洁的DDPG实现，因此我做了一个。 DDPG DDPG是一种无模型的非策略算法，可在连续动作空间中学习Q函数和策略。它受Deep Q Learning的启发，可以看作是连续acion空间上的DQN。它利用政策外数据和Bellman方程来学习Q函数，然后使用Q函数来推导和学习政策。在DDPG的此实现中，一开始执行n次纯探索（由rand_steps参数指定）。通过在整个范围内均匀分布来选择动作。主要特点：随机（深度）模型估计可提供连续（无限）的动作空间。使用噪声过程（例如， Ornstein–Uhlenbeck过程）进行动作空间探索。使用经验重播可以稳定地学习以前的经验。演员和评论家结构在演员和评论家网络中使用目标模型（通过Polyak平均进行权重转移）。使用Bellman方程描述每对<状态，动作>的最佳q值函数。

2021-03-10 21:36:19 8KB Python

1

Python-深度增强学习算法的PyTorch实现策略梯度生成对抗模仿学习

深度增强学习算法的PyTorch实现(策略梯度/生成对抗模仿学习)

2020-04-13 03:17:09 5.41MB Python开发-机器学习

1

个人信息

热门下载

最新下载

其他资源