搜索【reinforcement】的结果

control-systems-and-reinforcement-learning.pdf 控制系统与强化学习.pdf

2022-05-30 19:08:36 32.22MB 源码软件

1

Reinforcement Learning- an introduction 2018 pdf

Richard Sutton and Andrew Barto 的经典书籍《Reinforcement Learning- an introduction》。阅读本书是学习强化学习之路上不可避免的一环。而本书是经过两次修改2018年的最新版本。同时推荐youtube上面Alpha Go项目组David Silver的教学视屏，搭配学习，效果更佳哦~

2022-05-29 15:50:05 12.2MB 强化学习 电子书 Reinforce Le

1

Recent Advances in Reinforcement Learning Theory.pdf

强化学习(RL)通过与复杂环境的交互，推动机器学习从基础数据拟合到学习和规划的新时代。RL具有深度学习功能，在自动驾驶、推荐系统、无线通信、机器人、游戏等领域取得了巨大的成功。RL的成功很大程度上是基于RL算法的基础发展，直到最近才被彻底理解，特别是它们的有限时间收敛速度和样本复杂性。本教程将全面概述基础RL算法的理论理解的最新进展，利用随机近似/优化理论和利用RL问题的马尔可夫结构。本教程还将介绍一些高级的RL算法及其最近的发展。

2022-05-20 22:05:09 5.94MB 强化学习

cs50-ai：CS50使用Python进行AI入门的项目

CS50-AI项目哈佛大学课程（课程。专案周话题名称描述怎么跑视频 0 搜索确定两个角色分开多少度 $ python degrees.py large 0 搜索使用Minimax最佳玩井字游戏 $ python runner.py 1个知识解决逻辑难题 $ python puzzle.py 1个知识玩扫雷 $ python runner.py 2 不确定按重要性对网页进行排名 $ python pagerank.py corpus0 2 不确定评估一个人可能具有特定遗传特征的可能性 $ python heredity.py data/family0.cs

2022-05-20 11:27:31 201.85MB reinforcement-learning ai nim crossword

1

muzero:遵循AlphaZero General框架的MuZero和AlphaZero的干净实现。训练和深化这两种算法，并研究所学的MuZero MDP模型的可靠性

MuZero与Tensorflow中的AlphaZero 我们提供了基于流行的AlphaZero-General实施的AlphaZero和MuZero算法的可读性，注释性，充分记录的以及概念上容易实现的算法。我们的实现将AlphaZero扩展为可用于单人游戏域，例如其后续产品MuZero。该代码库提供了一个模块化框架来设计您自己的AlphaZero和MuZero模型，以及一个API来使这两种算法相互抵触。该API还允许MuZero代理在与环境交互过程中更加强烈地依赖其学习的模型。程序员可以例如指定在试验期间对所学的MuZero代理的观察稀疏性。我们的界面还提供了足够的抽象来扩展MuZero或AlphaZero算法，以用于研究目的。请注意，我们没有在桌游上进行广泛的测试，我们体验到这非常耗时且难以调整。经过良好测试的环境包括“健身房”环境：CartPole-v1，Mount

2022-05-20 10:22:40 8.59MB reinforcement-learning deep-learning tensorflow deep-reinforcement-learning

1

Reinforcement-Learning:Matlab 项目

强化学习您可以在此处找到强化学习 Matlab 中的项目。 TP1：策略评估、策略迭代、价值迭代、Q-learning TP2：多臂强盗，汤普森采样

2022-05-19 14:50:39 1.12MB TeX

1

never-give-up:永不放弃的PyTorch实现

永不放弃永不放弃的PyTorch实施：学习定向探索策略[] 仅实施了具有嵌入网络的偶然性好奇心。安装使用Python 3.7.9测试 pip install -r requirements.txt 火车 python train.py 结果 5x5结果学分 R2D2基地是从通过

2022-05-17 22:31:41 48KB reinforcement-learning pytorch r2d2 exploration-strategy

1

AIGames：使用AI玩一些游戏

AI游戏 use AI to play some games. You can star this repository to keep track of the project if it's helpful for you, thank you for your support. 内容名称实施算法的数量码用中文（表达 AISnake 2 AI贪吃蛇车手 1个 AI俄罗斯方块五子棋 1个 AI五子棋 AITRexRush 3 AIChrome浏览器小恐龙游戏爱庞 1个 AI乒乓球 AIPianoTiles 1个 AI别再踩白块了艾帕克曼 1个 AI吃豆人 AIFlappyBird 2 AI飞扬的小鸟更多微信公众号查尔斯·皮卡丘

2022-05-12 14:55:24 527.53MB game algorithm reinforcement-learning ai

1

Applications of Deep Reinforcement Learning in Communications and Networking.pdf

IEEE COMMUNICATIONS SURVEYS & TUTORIALS, VOL. 21, NO. 4, FOURTH QUARTER 2019 Nguyen Cong Luong , Dinh Thai Hoang , Member, IEEE, Shimin Gong , Member, IEEE, Dusit Niyato , Fellow, IEEE,PingWang , Senior Member, IEEE, Ying-Chang Liang , Fellow, IEEE, and Dong In Kim , Fellow, IEEE

2022-05-09 17:14:09 5.17MB 强化学习 综述 通信和网络

1

awesome-monte-carlo-tree-search-papers:带有实现的蒙特卡罗树搜索论文的精选列表

很棒的蒙特卡洛树搜索论文。 ⠀ ⠀⠀ 蒙特卡罗树搜索论文的精选列表，其中包含来自以下会议/期刊的实现：机器学习计算机视觉自然语言处理数据人工智能 UAI 机器人RAS 游戏CIG 关于图分类、梯度提升、分类/回归树、欺诈检测和社区检测论文的类似集合以及实现。 2021年学习停止：动态模拟蒙特卡罗树搜索（AAAI 2021） Li-Cheng Lan, Ti-Rong Wu, I-Chen Wu, Cho-Jui Hsieh [纸] Dec-SGTS：多代理协调的分散子目标树搜索（AAAI 2021）李明龙、蔡忠轩、杨文静、吴丽霞、徐颖慧、王季 [纸] 改进的 POMDP 树搜索规划与优先行动分支 (AAAI 2021) 约翰·默恩、阿尼尔·耶尔迪兹、劳伦斯·布什、Tapan Mukerji、Mykel J. Kochenderfer [纸]

2022-05-09 13:54:25 39KB learning machine-learning reinforcement-learning deep-learning

1

个人信息

热门下载

最新下载

其他资源