搜索【reinforcement】的结果

reinforcementlearningmario:该项目的目的是实施最先进的深度强化学习方法，即近距离策略优化（PPO），以培训代理人以完成超级马里奥兄弟世界第一的水平

超级马里奥兄弟的深度强化学习描述背景信息：超级马里奥兄弟（SMB）是一款流行的动作游戏，具有“真实的”环境和广阔的状态空间，是设计可玩计算机游戏的强化学习代理的理想平台。该代理要求与世界上的各种对象和障碍进行交互，以鼓励采用知识丰富的学习方法。方法-我们使用了OpenAI Gym提供的框架。超级马里奥兄弟体育馆并从游戏环境中提取了信息，以使用PPO训练RL特工。我们还向环境引入了预处理方法，例如帧缩放，随机跳帧，帧堆叠和噪声网，以提高代理的性能。通过引入回滚操作来提高训练的稳定性，可以创建PPO的变体。结果：该方法成功地训练了能够在20个小时的训练后完成水平的特工。我们成功实现了一种方法，该方法可以比常规PPO实施更好地执行，在不应用数据预处理的情况下性能提高了50％，在应用数据预处理的情况下性能提高了10％。工具 Pytorch已被用作主要的机器学习库由于SMB

2022-11-09 22:52:04 18.11MB reinforcement-learning Python

1

CloudSimPy:CloudSimPy

CloudSimPy 数据中心作业调度仿真框架 CloudSimPy 基于离散事件仿真框架，利用 Python 语言进行实现； Python 语言的科学计算、深度学习、机器学习生态相较于其他编程语言更加完善，CloudSimPy 可以与具有 Python 支持的深度学习框架（比如 TensorFlow，PyTorch）很好的结合，有助于研究基于机器学习或者深度学习的资源管理方法。在 CloudSimPy/playground/Non_DAG/algorithm/DeepJS/DRL.py 中的基于深度强化学习的数据中心作业调度算法由 TensorFlow 进行实现，并在其 eager 模式下进行推断和训练。 CloudSimPy 作为数据中心作业调度仿真框架 CloudSimPy 包含两个 Python 包 core 和 playground。 Core core 对数据中心作业调度问

2022-11-02 16:27:31 1.92MB cloud reinforcement-learning schedule datacenter

1

PyTorch教程：轻松快速地构建您的神经网络

如果您想使用Tensorflow ，不用担心，我像PyTorch一样制作了一个新的Tensorflow教程。这是链接： : pyTorch教程在pyTorch的这些教程中，我们将构建我们的第一个神经网络，并尝试构建一些近年来开发的高级神经网络架构。感谢，它对本教程。 pyTorch基本建立您的第一个网络先进的神经网络 / 其他（在制品）对于说中文的人：下面提到的所有方法都有其中文视频和文字教程。请访问。您也可以观看我的。捐款如果这样做对您有帮助，请考虑捐赠以支持我以获得更好的教程。任何贡献都将不胜感激！

2022-10-27 14:55:38 46.01MB python machine-learning tutorial reinforcement-learning

1

进化算法：使用Python的进化算法

在这些教程中，我们将演示和可视化遗传算法，进化策略，NEAT等算法。下文提到的所有方法都有其中文视频和文本教程。请访问。捐款如果这样做对您有帮助，请考虑捐赠以支持我以获得更好的教程！任何贡献都将不胜感激！

2022-10-19 01:32:08 2.25MB python machine-learning tutorial reinforcement-learning

1

Reinforcement Learning - An Introduction 2nd 2017

2022-10-17 23:16:53 9.69MB RL

1

Self-Supervised Attention-Aware Reinforcement Learning.pdf

本文设计了一个自我监督的注意模块，该模块可以识别感兴趣的显着区域，而无需明确的手工标记注释。在现有的以CNNs为特征提取器的深度RL方法中，可以直接即插即用。注意模块学习的是前景注意掩码，而不是预定义的关键点数量。

2022-10-12 17:06:59 7.33MB 自注意力

1

dm_env:用于强化学习环境的Python界面

dm_env ：DeepMind RL环境API 该软件包描述了用于Python强化学习（RL）环境的界面。它由以下核心组件组成： dm_env.Environment ：RL环境的抽象基类。 dm_env.TimeStep ：一个容器类，表示每个时间步（过渡）上环境的输出。 dm_env.specs ：一个模块，包含用于描述环境消耗的动作的格式以及其返回的观察值，奖励和折扣的原语。 dm_env.test_utils ：用于测试具体环境实现是否符合dm_env.Environment接口的工具。请参阅的文档以获取有关环境接口的语义以及如何使用它的更多信息。子目录还包含使用dm_env接口实现的RL环境的说明性示例。安装 dm_env可以使用pip从PyPI安装： pip install dm-env 请注意，从1.4版开始，我们仅支持Python 3.6+。您还

2022-10-09 19:19:31 32KB python api machine-learning reinforcement-learning

1

Online-Clustering-Algorithms-and-Reinforcement-Le_algorithms_onl

a pdf file about Online Clustering Algorithms and Reinforcement Learning using in onilne clustering

2022-09-24 22:00:09 581KB algorithms online_learning

Reinforcement Learning：An Introduction.pdf

Reinforcement Learning: An Introduction Second edition, in progress November 5, 2017 Richard S. Sutton and Andrew G. Barto The text is now complete, except possibly for one more case study to be added to Chapter 16. The references still need to be thoroughly checked, and an index still needs to be added. Please send any errors to rich@richsutton.com and barto@cs.umass.edu. We are also very interested in correcting any important omissions in the \Bibliographical and Historical Remarks" at the end of each chapter. If you think of something that really should have been cited, please let us know and we can try to get it corrected before the nal version is printed. The MIT Press Cambridge, Massachusetts London, England

2022-09-15 09:55:26 10.96MB RL

1

DQN-PyTorch:深度Q网络的PyTorch实现

DQN-PyTorch 实现PyTorch 目录：项目结构： ├── agents | └── dqn.py # the main training agent for the dqn ├── graphs | └── models | | └── dqn.py | └── losses | | └── huber_loss.py # contains huber loss definition ├── datasets # contains all dataloaders for the project ├── utils # utilities folder containing input extraction, replay memory, config parsing, etc | └── assets | └── replay_memory.py |

2022-09-12 10:10:45 87KB deep-learning pytorch reinforcement-learning-algorithms Python

1

个人信息

热门下载

最新下载

其他资源