sfc-dqn 该存储库是软件驱动的5G Slice中基于纸质增强学习的基于QoS / QoE感知服务功能链的tensorflow实现。 以下是文件简介: env.py:模拟SFC链分配的环境。 config.py:带宽,延迟和sfc请求的预设 dqn.py:DQN算法的核心代码。 train.py:运行此文件以单独训练DQN代理: python train.py 。 它将从ckpt /加载检查点文件并继续训练,并自动将检查点保存在ckpt /中。 注意:请改用main.py。 ckpt:用于存储预训练参数的文件夹。 运行eval.py,main.py时需要。 eval.py:评估DQN的平均QoE和错误率,并随机生成100个sfc请求。 尝试使用python eval.py查看平均QoE和错误率。 如果通过cpu运行,则DQN的完整时间可能会更长。 random_sfc.
2021-12-21 17:39:24 1.46MB Python
1
第9课:强化学习与DQN.pdf
2021-12-15 18:11:33 5.97MB 机器学习
1
关于强化学习dqn的相关代码,适合初学者认识和了解强化学习dqn
2021-12-14 18:30:34 19KB dqn
1
火炬RL RL方法的Pytorch实现 支持具有连续和离散动作空间的环境。 支持具有1d和3d观察空间的环境。 支持多进程环境 要求 一般要求 火炬1.7 健身房(0.10.9) Mujoco(1.50.1) 列表(用于日志) tensorboardX(日志文件输出) 张量板要求 Tensorflow:启动tensorboard或读取tf记录中的日志 安装 使用use environment.yml创建虚拟环境 conda create -f environment.yml source activate py_off 手动安装所有要求 用法 在配置文件中指定算法的参数,并在参数中指定日志目录/种子/设备 python examples/ppo_continuous_vec.py --config config/ppo_halfcheetah.json --seed 0 --device 0 --id ppo_halfcheetah 结帐示例文件夹以获取详细信息 目前包含: 政策上的方法: 加强 A2C(演员评论家) PPO(近端政策优化)
2021-11-23 11:43:20 170KB algorithm reinforcement-learning pytorch dqn
1
关于categorical dqn的例子,适合初学者对深度强化学习categorical dqn的认识和了解
2021-11-11 13:51:37 109KB categorical dqn
1
深度学习 通过深度强化学习制作简单的游戏AI简介 Keras和Gym中最小和简单的深度Q学习实现。 不到100行代码! 博客文章包含dqn.py代码的说明。 为了方便起见,我对该存储库进行了一些细微的调整,例如load和save功能。 我还使memory成为双端队列,而不只是列表。 这是为了限制内存中元素的最大数量。 训练对于dqn.py可能是不稳定的。 ddqn.py减轻了此问题。 我将在下一篇文章中介绍ddqn
1
您是否希望RL代理商在Atari上继续前进? 彩虹就是您所需要的! 这是从DQN到Rainbow的分步教程。 每章都包含理论背景和面向对象的实现。 只需选择您感兴趣的任何主题,然后学习! 您甚至可以在智能手机上使用Colab立即执行它们。 如果您有任何改善建议,请随时提出问题或提出要求。 :) 如果您想要有关策略渐变方法的教程,请参阅。 内容 DQN [ ] [ ] DoubleDQN [ ] [ ] PriorityizedExperienceReplay [ ] [ ] DuelingNet [ ] [ ] NoisyNet [ ] [ ] CategoricalDQN [ ] [ ] N-stepLearning [ NBViewer ] [ Colab ] 彩虹[ NBViewer ] [ Colab ] 先决条件 此存储库已在Anac
2021-11-03 12:21:10 739KB reinforcement-learning rainbow pytorch dqn
1
关于rainbow dqn的例子,适合初学者对深度强化学习rainbow dqn.的认识和了解
2021-11-03 11:15:29 91KB rainbow dqn.
1
经过研究人员和金融专家对股票市场预测的多年研究之后,似乎没有确定的方法可以既准确又持续地预测股票价格。 这是由于股票走势的不确定性以及决定市场表现的众多参数所致。 人们已经研究了许多技术来预测股市价格。 另外,已经进行了各种比较研究以找到可以帮助交易者做出决定的最佳技术。 本文提出将Rainbow DQN,LSTM和GRU等集成技术用于实时股票市场预测和指示买/卖信号。 仔细检查了所用这些技术的结果,以检查是否过度拟合。 使用准确性,投资回报率来评估技术的性能。 很少有人使用MACD和RSI等著名指标来验证结果。 测试在NIFTY50,Microsoft和Google上进行,并以1分钟为间隔构建实时数据。
2021-11-03 10:24:46 1.4MB Rainbow Deep Q Network
1
DQN-雅达利 深度Q网络实现。 实施从论文《和得出。 结果 游戏视频-DQN Nature Paper 每集奖励 实施摘要 DQN自然架构实施 输入:84×84×4图像(使用历史记录的最后4帧) 转换层1:32个8×8滤光片,步幅为4 转换层2:64个4×4步幅的滤镜 转换层3:64个3×3滤光片,步幅为1 完全连接1:完全连接,由256个整流器单元组成 输出:完全连接的线性层,每个有效动作均具有单个输出。 DQN Neurips架构实施 输入:84×84×4图像(使用历史记录的最后4帧) 转换层1:16个8×8滤光片,步幅为4 转换层2:32个4×4步幅的滤镜 完全连接1:完全连接,由256个整流器单元组成 输出:完全连接的线性层,每个有效动作均具有单个输出。 其他参数 优化器:RMSProp 批量大小:32 电子贪婪:0.1 怎么跑 创建一个新环境 例子: conda
2021-10-28 09:30:51 19.97MB machine-learning reinforcement-learning pong pytorch
1