中心差分法的MATLAB代码-Temporal-Difference-Learning:Matlab中的时态差异学习和基本强化学习演示

上传者: 38685961 | 上传时间: 2021-12-23 08:23:13 | 文件大小: 34KB | 文件类型: -
中心差分法的MATLAB代码MATLAB中的时差学习演示 在此软件包中,您将找到MATLAB代码,这些代码演示了预测问题和强化学习中的时差学习方法的一些选定示例。 开始: 运行DemoGUI.m 从一组预定义的演示开始:选择一个演示并按Go 修改演示:选择预定义的演示之一,然后修改选项 随意分发或使用软件包,特别是出于教育目的。 我个人从徒步旅行中学到了很多东西。 软件包的存储库位于。 为什么时间差异学习很重要 RS Sutton和AG Barto从他们的书《强化学习入门》 ()引述: 如果必须将一种思想确定为强化学习的核心和新颖性,那么毫无疑问,这将是时差(TD)学习。 本质上,许多基本的强化学习算法(例如Q层和SARSA)都是时差学习方法。 演示版 Prediciton随机游走:了解我们可以多么精确地预测访问节点的概率 RL随机游走:了解RL生成的随机游走策略如何收敛计算的概率。 简单的网格世界(有或没有国王移动) :了解RL产生的政策如何帮助代理人随时间推移找到目标(通过国王移动,这意味着沿着四个主要方向和对角线移动,即国王在国际象棋中移动的方式)。 有风的网格世界:风将代理商从

文件下载

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明