Bayesian methods for machine learning have been widely investigated, yielding principled methods for incorporating prior information into inference algorithms. In this survey, we provide an in-depth review of the role of Bayesian methods for the reinforcement learning (RL) paradigm. The major incentives for incorporating Bayesian reasoning in RL are: 1) it provides an elegant approach to action-selection (exploration/ exploitation) as a function of the uncertainty in learning; and 2) it provides a machinery to incorporate prior knowledge into the algorithms. We first discuss models and methods for Bayesian inference in the simple single-step Bandit model. We then review the extensive recent literature on Bayesian methods for model-based RL, where prior information can be expressed on the parameters of the Markov model. We also present Bayesian methods for model-free RL, where priors are expressed over the value function or policy class. The objective of the paper is to provide a comprehensive survey on Bayesian RL algorithms and their theoretical and empirical properties.
2021-11-21 19:28:33 1.81MB 贝叶斯 增强学习 机器学习 深度学习
1
结合网上信息和莫烦视频做的一个分享,本想转化成博客但是一些动画我觉得还是必要的,有兴趣的可以一起交流
2021-11-18 09:31:22 29.43MB reinforcement learning Q-learning SARSA
1
强化学习算法的实现 强化学习实例 在每个文件中,都有一个jupyter笔记本及其相应的python文件。 笔记本中记录了所有中间过程和绘图的位置,而在python文件中则是可以直接运行的已编译过程。 网格世界 井字游戏 Muilti-Arm强盗 二十一点 悬崖漫步 随机游走(n步TD法) 动态迷宫 DynaMaze实施 DynaMaze扩展实现 随机漫步(一般) 1000状态随机游走 平铺编码 平铺编码实现 山地车 策略功能近似 服务器访问 持续任务​​的概括 贝尔德计数器示例 非政策学习的普遍化 TD-Lambda 随机游走离线-Lambda 随机游走TD(\ lambda) 山车Lambda Sarsa-Lambda 策略近似 短走廊
2021-11-17 21:26:09 4.8MB JupyterNotebook
1
QlearningProject MatLab仿真,用于基于Q学习的避障和非周期性例程。 用于避障例程和移动机器人控制的Python代码。
2021-11-17 17:23:37 6.36MB python reinforcement-learning matlab q-learning
1
掌握离散世界模型的Atari 在TensorFlow 2中实现代理。包括所有55个游戏的训练曲线。 如果您认为此代码有用,请在您的论文中参考: @article{hafner2020dreamerv2, title={Mastering Atari with Discrete World Models}, author={Hafner, Danijar and Lillicrap, Timothy and Norouzi, Mohammad and Ba, Jimmy}, journal={arXiv preprint arXiv:2010.02193}, year={2020} } 方法 DreamerV2是第一个在Atari基准上达到人类水平性能的世界模型代理。使用相同的经验和计算量,DreamerV2的性能也优于顶级无模型代理Rainbow和IQN。此存储库中的实现
1
Mastering Complex Control in MOBA Games with Deep Reinforcement Learning.pdf
2021-11-12 22:39:22 3.9MB 人工智能
1
BARK-ML-自动驾驶的机器学习 BARK-ML为多种情况提供了易于使用的环境,例如高速公路驾驶,合并和交叉路口。 此外,BARK-ML集成了最先进的机器学习库,以学习自动驾驶汽车的驾驶行为。 BARK-ML支持的机器学习库: (计划中) 体育馆环境 在运行示例之前,请安装虚拟python环境( bash utils/install.sh )并输入它( source utils/dev_into.sh )。 连续环境: bazel run //examples:continuous_env 可用环境: highway-v0 :连续的高速公路环境 highway-v1 :离散高速公路环境 merging-v0 :持续合并环境 merging-v1 :离散合并环境 intersection-v0 :连续交集环境 intersection-v1 :离散交集环境 特工 TF-Agent
2021-11-11 18:31:55 31.57MB learning machine driving reinforcement
1
Richard Sutton’s & Andrew Barto’s Reinforcement Learning: An Introduction (2nd Edition) book.
2021-11-10 07:44:40 12.15MB 增强学习
1
ml-in-action:出版书籍《机器学习入门到实践——MATLAB实践应用》一书中的实例程序。涉及监督学习,非监督学习和强化学习。(本书的代码“ MATLAB中的机器学习简介与操作” ”)
1
针对金融组合管理问题的深度强化学习框架 该存储库介绍了在哥伦比亚大学的背景下实现的项目中我们的工作。 这个深度政策网络强化学习项目是我们对原始论文实施和进一步研究 。 目标:问题是自动化投资组合管理的一个问题:给定一组股票,如何在一定数量的时间步长结束时最佳地通过时间分配资金以最大化回报。 通过这种方式,我们的目标是建立一个自动代理,以最佳地在不同股票之间分配其投资权重。 数据:姜等。 使用Poloniex交易所的13种加密货币。 他们考虑了每分钟的开盘价,最高价,最低价,收盘价(OHLC)。 它们使投资组合每30分钟重新平衡一次。 他们重新处理数据并基于最近的50个时间步创建张量。 我们使用每日数据和每日重新平衡的日内数据框架将实验扩展到股票市场。 该项目分为三个部分: 数据预处理 环境设置 深度政策网络设计 代理商的培训和测试 这些文件是: data_pipe.ipynb
2021-11-06 16:58:31 15.03MB JupyterNotebook
1