只为小站
首页
域名查询
文件下载
登录
DQN
-Atari:Atari pong的深度Q学习(
DQN
)实施-源码
DQN
-雅达利 深度Q网络实现。 实施从论文《和得出。 结果 游戏视频-
DQN
Nature Paper 每集奖励 实施摘要
DQN
自然架构实施 输入:84×84×4图像(使用历史记录的最后4帧) 转换层1:32个8×8滤光片,步幅为4 转换层2:64个4×4步幅的滤镜 转换层3:64个3×3滤光片,步幅为1 完全连接1:完全连接,由256个整流器单元组成 输出:完全连接的线性层,每个有效动作均具有单个输出。
DQN
Neurips架构实施 输入:84×84×4图像(使用历史记录的最后4帧) 转换层1:16个8×8滤光片,步幅为4 转换层2:32个4×4步幅的滤镜 完全连接1:完全连接,由256个整流器单元组成 输出:完全连接的线性层,每个有效动作均具有单个输出。 其他参数 优化器:RMSProp 批量大小:32 电子贪婪:0.1 怎么跑 创建一个新环境 例子: conda
2021-10-28 09:30:51
19.97MB
machine-learning
reinforcement-learning
pong
pytorch
1
DeepRL_PyTorch:用于研究的深度强化学习代码。 当前,仅存在算法代码:
DQN
,C51,QR-
DQN
,IQN和QUOTA-源码
深度强化学习代码 当前,这里只有用于分布增强学习的代码。 C51,QR-
DQN
和IQN的代码与略有。 QUOTA是基于算法作者同的工作而实现的。 我最近注意到,我的
DQN
代码可能无法获得理想的性能,而其他代码却运行良好。 如果有人可以指出我的代码中的错误,我将不胜感激。 随时进行聊天-如果您想讨论任何事情,请给我发送电子邮件。 依赖关系: pytorch(> = 1.0.0) 体育馆(= 0.10.9) 麻木 matplotlib 用法: 为了运行我的代码,您需要在主目录下创建两个子目录:./data/model/&./data/plots/。 这两个目录用于存储数据。 当计算机的python环境满足上述依赖性时,您可以运行代码。 例如,输入: python 3_ iqn . py Breakout 在命令行上运行以在Atari环境中运行算法。 您可以为代码内的算法更改一些特定参数。 训练后,您可以通过使用适当的参数运行result_show.py来绘制结果。 参考文献: 通过深度强化学习(
DQN
)进行人为控制[] [] 强化学习的分布式视角(C51)[] []
2021-10-24 22:54:36
33KB
algorithm
reinforcement-learning
algorithms
pytorch
1
强化学习入门经典论文(
DQN
相关).rar
强化学习必读论文
2021-10-23 22:42:26
13.6MB
DQN
1
强化学习源码(DP, MC, TD,
DQN
, PG, AC, A3C, DDPG).zip
包括DP, MC, TD, TD-lambda,
DQN
, PG, AC, A3C, DDPG, Dyna_Q, Bandit, AlphaGoBangZero以及部分仿真游戏源码
2021-10-14 16:17:05
32.58MB
强化学习
1
DQN
_by_keras-master.rar
用keras搭建
DQN
网络,实现走迷宫
2021-10-13 18:04:09
13KB
强化学习
迷宫
DQN
1
2018-surf-
dqn
-forex:XJTLU SURF项目-源码
金融投资组合选择和自动交易中的Q学习 Policy Gradient和Q-Learning是强化学习(机器学习的一个分支)中的技术,而后者由于在视频游戏和与人类专家进行的Game of Go比赛中的胜利而具有较高的知名度。 但是,由于问题学习中连续的行动空间,强化学习在金融投资组合管理问题上的成功应用以前大多限于“策略梯度”变体。 在这个项目中,我们将采用一种简单的离散化方案,以使问题适合于不连续的Q学习技术。 然后,将通过其在其他更成熟的方法上的性能来检验这种方法的有效性。 可能的方法 使用 使用 使用 从零开始的代码 ...
2021-10-11 17:03:40
2.08MB
Python
1
keras搭建
DQN
训练Flappybird模型.zip
keras搭建
DQN
,构建FlappyBird智能体的模型,分别训练200轮以及github上下载的292轮模型
2021-09-30 17:05:25
21.23MB
keras
1
强化学习
DQN
这本书详细介绍了强化学习的常用算法以及算法原理,从蒙特卡罗方法到Q_learning最终到
DQN
2021-09-28 19:29:44
1.51MB
强化学习
深度学习
1
machin:专为PyTorch设计的强化学习库(框架),实现了
DQN
,DDPG,A2C,PPO,SAC,MADDPG,A3C,APEX,IMPALA ..-源码
可读,可重用,可扩展 Machin是为pytorch设计的增强库。 支持的型号 任何事物,包括循环网络。 支持的算法 当前,Machin已实现以下算法,该列表仍在增长: 单代理算法: 多主体算法: 大规模并行算法: 增强功能: 支持的算法: 进化策略 基于模型的方法 特征 1.可读 与其他强化学习库(例如著名的 , 和。 Machin尝试仅提供RL算法的简单明了的实现。 Machin中的所有算法均以最小的抽象设计,并具有非常详细的文档以及各种有用的教程。 2.可重复使用 Machin采用与pytorch类似的方法,将算法和数据结构封装在自己的类中。 用户无需设置一系列data collectors , trainers , runners , samplers ...即可使用它们,只需导入即可。 模型上的唯一限制是它们的输入/输出格式,但是,这些限制很小,可以轻松地使算法适
2021-09-17 19:09:16
1.54MB
python
reinforcement-learning
deep-learning
gae
1
Reinforcement-Learning:使用Q学习,
DQN
和D
DQN
进行强化学习-源码
强化学习 深度学习:优化 创建人:Vithurshan Vijayachandran和Hisho Rajanathan RLearning_NOTEBOOK.ipynb-适用于基本(Q学习)和高级任务(
DQN
和D
DQN
)的Jupyter笔记本。 RL_Rport.pdf:报告所有研究结果和评估。 使用以下预训练模型来测试网络,因为重新训练非常耗时。
DQN
TrainingModel.h5-测试
DQN
网络所需的文件 D
DQN
TrainingModel.h5-测试D
DQN
网络所需的文件 D
DQN
PERTrainingModel.h5 =使用PER网络测试D
DQN
所需的文件
2021-09-14 10:57:27
2.5MB
JupyterNotebook
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
opcua服务器模拟器+opcua客户端工具.rar
鲸鱼优化算法 WOA matlab源代码(详细注释)
基于S函数的BP神经网络PID控制器及Simulink仿真和对应代码模型.zip
拾荒者.exe同时ID扫描器IP扫描器
java-spring-web-外文文献翻译40篇.zip
sqlite运行所需Vc++运行环境,纯净版System.Data.SQLite.dll及SQLite.Interop.dll
东南大学英语技术写作慕课所有答案
中小型企业网络建设.pkt
基于Python网络爬虫毕业论文.doc
基于Matlab的IEEE14节点潮流计算.zip
基于Servlet+jsp+mysql开发javaWeb学生成绩管理系统
多机器人编队及避障仿真算法.zip
《应用非线性控制》(美)斯洛坦著;程代展译(清晰)
avantage 软件 xps 处理软件30天后不能使用问题
商用密码应用与安全性评估——霍炜.pdf
最新下载
STM32F103 + SSD1963开发板(原理图、PCB源文件、Protel99se格式.)
计算机一级office2016word 操作练习题
C++test v6.0.0.5破解版(3)
wireshark_ARM.tar.gz 离线安装包
LABEL MATRIX 7.01
keil_STM32L4系列芯片旧支持包.rar
minGW-w64.zip
PL1167_DEMO_V1.00例程.zip
STM32H743 数据手册 dm00387108-1799185.pdf
uTorrent.v2.21(已优化了配置且包含了trackerslist)
其他资源
BT.656标准的中文版
MATLAB小波分析合集
PCL-1.8.1-AllInOne-msvc2015-win64
精通DirectX.3D图形与动画程序设计.pdf
链家北京成交数据
java实现多个图片生成视频流
winSMITH v2.0.rar
vs2015版本 curl静态库
基于matlab的声音去噪研究
Redis所需要得所有jar包
6N137光耦直插和贴片封装(AD).PcbLib
jacob-1.18-64位.zip
韩国卡通儿童模板下载
datamap资料安装包
基于CC2530的办公环境监测系统
社区团购小程序
图书馆信息管理系统设计书
Mapbox加载天地图CGCS2000瓦片地图服务
Android移动应用设计与开发(第2版) ——基于Android Studio开发环境 综合案例源代码
基于Android和百度地图的定位跟踪系统课程设计
modbus的读写java实现
基于单片机的智能电子遥控车位锁设计
SSM-Maven项目招聘框架