普通的 DQN 算法通常会导致对值的过高估计,通过神经网络估算的Q值本身在某些时候会产生正向或负向的误差,在 DQN 的更新方式下神经网络会将正向误差累积。对于动作空间较大的任务,DQN 中的过高估计问题会非常严重,造成 DQN 无法有效工作的后果。 为了解决这一问题,Double DQN 算法提出利用两个独立训练的神经网络估算值函数,将训练网络作为 Double DQN 算法中的第一套神经网络来选取动作,将目标网络作为第二套神经网络计算值,极大的缓解了DQN过估计的问题。 这个程序完整实现了DoubleDQN算法,并且在Pendulum-v0环境上验证了过估计问题,可以从实验结果中看出,DoubleDQN确实缓解了DQN的过估计问题。
2022-07-14 12:08:28 11KB 强化学习 过估计 DQN DoubleDQN
1
Easy-RL 李宏幽默老师的《深度强化学习》是强化学习领域经典的中文视频之一。李老师幽默风趣的上课风格让晦涩难懂的强化学习理论变得轻松易懂,他会通过很多有趣的例子例证解强化学习理论。某些老师经常会用玩Atari游戏的例子解释解解强化学习算法。如此,为了课程的补充,我们整理了周博磊老师的《强化学习纲要》,李科浇老师的《百度强化学习》。以及多个强化学习的经典资料作为补充。对于想入门强化学习又想看中文讲解的人来说绝对是非常推荐的。 使用说明 第4章到第11章为的部分; 第1章和第2章根据整理而来; 第3章和第12章根据整理而来。 在线阅读(内容实时更新) 地址: : 内容导航 章节 习题 项目 算法代码实现一览 算法名称 相关论文材料 备注 进度 蒙特卡洛算法 好的 好的 好的 好的 DQN-cnn 与DQN索引使用了CNN而不是全链接网络 好的 好的 分层DQN 好的 好的 DDPG 好
1
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题
2022-07-07 20:14:30 7.09MB 强化学习 深度学习 DQN Q学习
1
深度强化学习系列,包括最基础的DQNDQN模型改进,DQN算法改进,分层DRL,基于策略梯度的深度强化学习等等
2022-06-30 18:10:51 72.23MB DQN
CNN_with_CAES_and_DQN 卷积神经网络的组合,其中卷积自动编码器(堆叠式)与深度 Q 网络相结合。 C++代码基于tiny_cnn
2022-06-29 21:18:19 728KB C++
1
强化学习对抗攻击和防御 DQN政策 战略定时攻击 统一攻击 对抗训练 该存储库为深度强化学习代理实现了一些经典的对抗攻击方法,包括( drl_attacks/ ): 统一攻击[]。 战略定时攻击[]。 临界点攻击[]。 关键策略攻击。 对抗性政策攻击[]。 也可以使用以下RL防御方法( drl_defenses/ ): 对抗训练[]。 还提供了一些图像防御方法( img_defenses/ ): JPEG转换[]。 位压缩[ ]。 图像平滑[]。 该项目大部分基于基于的RL框架守。 图片敌对攻击和防御都与实施 ,也是基于Pytorch。 相反,A2C和PPO策略基于pytorch-a2c-ppo-acktr-gail ,DQN使用了天守实现。 任何图像对抗攻击都与此项目兼容。 可用型号 它还可以在文件夹log找到适用于不同任务的训练有素的模型。 下表报告了三种
1
DQN网络借鉴了IQL的思想,分布的动作,共同的状态
2022-05-23 16:08:24 119KB 网络 文档资料
1
play-daxigua-using-Re强化学习:使用强化学习DQN算法,训练AI模型来玩合成大西瓜游戏,提供Keras版本和PARL(paddle)版本
2022-05-15 19:08:37 4KB
1
使用光线调谐优化的双 DQN 算法
2022-05-11 09:04:17 81KB python 算法 源码软件 开发语言