只为小站
首页
域名查询
文件下载
登录
PyRL:PyRL-Pytorch中的强化学习框架(政策梯度,DQN,
DDPG
,TD3,PPO,SAC等)
PyRL-Pytorch中的强化学习框架 PyRL是深度强化学习研究的框架。 在PyTorch中实现了以下算法: (在制品) (WIP) (在制品) 该项目仍在积极开发中。 特征 模块化架构 在PyTorch中实现 可读代码 安装 git clone https://github.com/chaovven/pyrl.git pip3 install -r requirements.txt 我强烈建议使用conda环境进行实验。 其中一些示例使用MuJoCo物理模拟器。 有关设置MuJoCo的说明,请参见。 进行实验 示例1: TD3 python3 main.py --alg=td3 with env=InvertedPendulum-v2 默认参数存储在config/default.yaml ,其中所有实验都共享这些参数。 TD3的参数存储在文件config/algs
2022-03-15 14:32:51
29KB
reinforcement-learning
deep-reinforcement-learning
pytorch
dqn
1
改进
DDPG
算法在自动驾驶中的应用-张斌.pdf
改进
DDPG
算法在自动驾驶中的应用-张斌
2022-02-11 14:22:20
1.58MB
1
RLlab:DQN,NAF,
DDPG
的pytorch实现-源码
实验室 RL算法的某些实现主要使用pytorch。 目前已实施: DQN
DDPG
资产净值 优势演员克里蒂 安装: git clone 跑步: 安装后,只需运行main.py
2022-01-14 17:07:45
435KB
Python
1
基于多维状态动作的
DDPG
冲突解脱算法研究
本文利用 Gym 对仿真环境进行注册,对 OpenScope 进行功能性改造,引入 成都双流机场最新进近区域内的固定点数据,包括各个扇区参数、进离场航线数据、进 近区管辖范围数据等,设计了简单的进近区 ATC 管制环境。该环境包括独立的进场、离 场情景,充分考虑了各种复杂情况下的冲突。其次,针对不同空域的复杂程度设计了相 应的冲突场景,如航路上的交叉冲突以及对头冲突,进、离场时的对头冲突、超越冲突 等,构建完备的冲突集。为了降低模型的复杂度,假设航空器在转弯过程中不考虑最小 转弯半径的限制。最后,考虑到解脱动作的连续性以及智能体状态的复杂性,本文以保 障飞行安全为前提,对航空器解脱策略进行研究。通过构建的空中交通管制仿真环境实 现智能体之间的交互训练任务,设计了冲突解脱模型的奖励函数,采用深度强化学习中 经典算法
DDPG
进行解脱策略的学习。仿真实验结果表明该算法对于多种冲突环境均 能够搜索到较优的解脱策略,冲突解脱成功率达到 89% 以上,可以作为管制员进行冲 突解脱的参考方案之一。
2022-01-04 13:01:40
11.77MB
空中交通管制
冲突探测与解脱
深度强化学习
DDPG
ddpg
_algorithm:
ddpg
算法的实现-源码
ddpg
_algorithm:
ddpg
算法的实现
2021-12-30 12:43:43
1.23MB
Python
1
ddpg
源码
ddpg
源码
2021-12-24 11:01:46
2KB
ddpg源码
torchrl:强化学习算法的Pytorch实现(软演员评论员(SAC)
DDPG
TD3 DQN A2C PPO TRPO)-源码
火炬RL RL方法的Pytorch实现 支持具有连续和离散动作空间的环境。 支持具有1d和3d观察空间的环境。 支持多进程环境 要求 一般要求 火炬1.7 健身房(0.10.9) Mujoco(1.50.1) 列表(用于日志) tensorboardX(日志文件输出) 张量板要求 Tensorflow:启动tensorboard或读取tf记录中的日志 安装 使用use environment.yml创建虚拟环境 conda create -f environment.yml source activate py_off 手动安装所有要求 用法 在配置文件中指定算法的参数,并在参数中指定日志目录/种子/设备 python examples/ppo_continuous_vec.py --config config/ppo_halfcheetah.json --seed 0 --device 0 --id ppo_halfcheetah 结帐示例文件夹以获取详细信息 目前包含: 政策上的方法: 加强 A2C(演员评论家) PPO(近端政策优化)
2021-11-23 11:43:20
170KB
algorithm
reinforcement-learning
pytorch
dqn
1
Deep-learning-for-a-robot-arm:BSc毕业项目-
DDPG
算法,用于解决到达和跟踪线问题-源码
机器人手臂的深度学习 实现强化学习算法之一(
DDPG
深度确定性Ploicy梯度),以控制机械臂。 该项目的目标是从安装在机器人上,以电机命令在一个端对端方式的照相机来映射特征。 推介会: 有关该项目的演示文稿,可以在这里找到: 二手工具和技术: Python 2.7 TensorFlow 1.5.1 OpenCV Vrep RemoteAPI 皮塞里亚尔 任务: 在工作空间中到达对象: 环境文件: 算法实现: 遵循黑线: 环境文件: 算法实现:
2021-11-22 22:14:39
3.9MB
Python
1
RLContinuousActionSpace:在连续状态和动作空间中进行强化学习。
DDPG
-源码
RLContinuousActionSpace 在连续状态和动作空间中进行强化学习。
DDPG
:深度确定性策略梯度和A3C:异步Actor-Critic代理 注意:环境是随机填充的查找表和模拟物理模型的常量的任意组合。 1°
DDPG
: 基于带有深度强化学习的持续控制: : 和来自精彩博客。 这种方法结合了DDQN算法(体验重播和目标网络)的优势以及可输出连续动作的行为者批评结构。 该算法首先在健身房开放式平台的pendulum-v0游戏中进行了验证,然后应用于定制的Envonement EnvPlant.py,模拟了温度模型: OU.py:探索是通过Ornstein-Uhlenbeck过程完成的,它具有便利的均值回复特性。 Models.py:演员,评论家和目标网络的神经网络 演员模型 批评模型 main.py:配置,训练,测试,显示,存储,加载 ReplayBuffer.py
2021-11-19 17:06:34
1.9MB
Python
1
强化学习源码(DP, MC, TD, DQN, PG, AC, A3C,
DDPG
).zip
包括DP, MC, TD, TD-lambda, DQN, PG, AC, A3C,
DDPG
, Dyna_Q, Bandit, AlphaGoBangZero以及部分仿真游戏源码
2021-10-14 16:17:05
32.58MB
强化学习
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
python大作业--爬虫(完美应付大作业).zip
基于STM32的FFT频谱分析+波形识别
东南大学英语技术写作慕课所有答案
工程伦理_李正风,丛杭青,王前_北京:清华大学出版社 , 2016.08_P329.pdf
多目标优化算法(四)NSGA3的代码(MATLAB)
基于Matlab的IEEE14节点潮流计算.zip
2020年数学建模国赛C题论文
Autojs 例子 源码 1600多个教程源码
Plexim Plecs Standalone 4.1.2 x64.7z
大学生网页设计大作业-5个网页设计制作作品自己任选
RNN-LSTM卷积神经网络Matlab实现
avantage 软件 xps 处理软件30天后不能使用问题
科研伦理与学术规范 期末考试2 (40题).pdf
航迹融合算法MATLAB仿真程序
拾荒者扫描器.zip
最新下载
工训物流小车颜色及二维码识别
PIC教程及例程、MCC指南.zip
书生套件-(人民银行专用浏览打印gd文件)
itu-t81 JPEG standard.pdf
ZHSubside中翰建筑物沉降分析软件安装程序(含破解程序)
nRF52-DK 上手指南 1.0(必读).pdf
houston 2018 的数据集
TIA V13V-15.1,WINCC V7.3-V7.5 免狗和谐补丁(支持 WinCC_V7.4_SP1_Upd7) 2018.11.26
云视通扫描工具.zip
变压器实用技术大全(13版)
其他资源
pr转场插件.zip
轻量级C++实现的httpserver和httpclient
MATLAB 基于小波变换图像压缩方法的代码
Tomcat 8.0免安装版64位
MIPS机器码翻译器(修正一)
DIGITAL DESIGN Principles and Practices and Solutions
PEMFC matlab 仿真
SAP实施PM常见表关系图
用C语言实现高斯滤波
STM32F10X+ENC28J60 TCP以太网连接
Java 笔试、面试 知识整理.zip
完美的学生考勤系统DEMO
JSP+MYSQL SSH宠物销售管理系统-毕业设计
Java的连连看游戏GUI_swing(JAVA源码+论文+视频齐全)
graphql-react-app:一个演示应用程序,用于将GraphQl与React和Spacex API结合使用-源码
2020年中国RPA行业研究报告.pdf
摄像头特效处理DELPHI源码.rar
skydns.zip
虚拟机nfs服务器搭建.doc
android 象棋
基于MFC的FTP客户端demo
postgresql及tomcat安装文档
contourlet工具箱
电影网站 在线选座 全站静态html
广联达2011最新无驱破解写锁写狗数据
bean-validator+中文参考手册