control-systems-and-reinforcement-learning.pdf 控制系统与强化学习.pdf
2022-05-30 19:08:36 32.22MB 源码软件
1
Richard Sutton and Andrew Barto 的经典书籍《Reinforcement Learning- an introduction》。阅读本书是学习强化学习之路上不可避免的一环。而本书是经过两次修改2018年的最新版本。同时推荐youtube上面Alpha Go项目组David Silver的教学视屏,搭配学习,效果更佳哦~
2022-05-29 15:50:05 12.2MB 强化学习 电子书 Reinforce Le
1
强化学习(RL)通过与复杂环境的交互,推动机器学习从基础数据拟合到学习和规划的新时代。RL具有深度学习功能,在自动驾驶、推荐系统、无线通信、机器人、游戏等领域取得了巨大的成功。RL的成功很大程度上是基于RL算法的基础发展,直到最近才被彻底理解,特别是它们的有限时间收敛速度和样本复杂性。本教程将全面概述基础RL算法的理论理解的最新进展,利用随机近似/优化理论和利用RL问题的马尔可夫结构。本教程还将介绍一些高级的RL算法及其最近的发展。
2022-05-20 22:05:09 5.94MB 强化学习
CS50-AI项目 哈佛大学课程(课程。 专案 周 话题 名称 描述 怎么跑 视频 0 搜索 确定两个角色分开多少度 $ python degrees.py large 0 搜索 使用Minimax最佳玩井字游戏 $ python runner.py 1个 知识 解决逻辑难题 $ python puzzle.py 1个 知识 玩扫雷 $ python runner.py 2 不确定 按重要性对网页进行排名 $ python pagerank.py corpus0 2 不确定 评估一个人可能具有特定遗传特征的可能性 $ python heredity.py data/family0.cs
2022-05-20 11:27:31 201.85MB reinforcement-learning ai nim crossword
1
MuZero与Tensorflow中的AlphaZero 我们提供了基于流行的AlphaZero-General实施的AlphaZero和MuZero算法的可读性,注释性,充分记录的以及概念上容易实现的算法。 我们的实现将AlphaZero扩展为可用于单人游戏域,例如其后续产品MuZero。 该代码库提供了一个模块化框架来设计您自己的AlphaZero和MuZero模型,以及一个API来使这两种算法相互抵触。 该API还允许MuZero代理在与环境交互过程中更加强烈地依赖其学习的模型。 程序员可以例如指定在试验期间对所学的MuZero代理的观察稀疏性。 我们的界面还提供了足够的抽象来扩展MuZero或AlphaZero算法,以用于研究目的。 请注意,我们没有在桌游上进行广泛的测试,我们体验到这非常耗时且难以调整。 经过良好测试的环境包括“健身房”环境:CartPole-v1,Mount
1
强化学习 您可以在此处找到强化学习 Matlab 中的项目。 TP1:策略评估、策略迭代、价值迭代、Q-learning TP2:多臂强盗,汤普森采样
2022-05-19 14:50:39 1.12MB TeX
1
永不放弃 永不放弃的PyTorch实施:学习定向探索策略[] 仅实施了具有嵌入网络的偶然性好奇心。 安装 使用Python 3.7.9测试 pip install -r requirements.txt 火车 python train.py 结果 5x5结果 学分 R2D2基地是从通过
1
AI游戏 use AI to play some games. You can star this repository to keep track of the project if it's helpful for you, thank you for your support. 内容 名称 实施算法的数量 码 用中文(表达 AISnake 2 AI贪吃蛇 车手 1个 AI俄罗斯方块 五子棋 1个 AI五子棋 AITRexRush 3 AIChrome浏览器小恐龙游戏 爱庞 1个 AI乒乓球 AIPianoTiles 1个 AI别再踩白块了 艾帕克曼 1个 AI吃豆人 AIFlappyBird 2 AI飞扬的小鸟 更多 微信公众号 查尔斯·皮卡丘
2022-05-12 14:55:24 527.53MB game algorithm reinforcement-learning ai
1
IEEE COMMUNICATIONS SURVEYS & TUTORIALS, VOL. 21, NO. 4, FOURTH QUARTER 2019 Nguyen Cong Luong , Dinh Thai Hoang , Member, IEEE, Shimin Gong , Member, IEEE, Dusit Niyato , Fellow, IEEE,PingWang , Senior Member, IEEE, Ying-Chang Liang , Fellow, IEEE, and Dong In Kim , Fellow, IEEE
2022-05-09 17:14:09 5.17MB 强化学习 综述 通信和网络
1
很棒的蒙特卡洛树搜索论文。 ⠀ ⠀⠀ 蒙特卡罗树搜索论文的精选列表,其中包含来自以下会议/期刊的实现: 机器学习 计算机视觉 自然语言处理 数据 人工智能 UAI 机器人RAS 游戏CIG 关于图分类、梯度提升、分类/回归树、欺诈检测和社区检测论文的类似集合以及实现。 2021年 学习停止:动态模拟蒙特卡罗树搜索(AAAI 2021) Li-Cheng Lan, Ti-Rong Wu, I-Chen Wu, Cho-Jui Hsieh [纸] Dec-SGTS:多代理协调的分散子目标树搜索(AAAI 2021) 李明龙、蔡忠轩、杨文静、吴丽霞、徐颖慧、王季 [纸] 改进的 POMDP 树搜索规划与优先行动分支 (AAAI 2021) 约翰·默恩、阿尼尔·耶尔迪兹、劳伦斯·布什、Tapan Mukerji、Mykel J. Kochenderfer [纸]
1