2048健身房 该存储库是一个有关使用DQN(Q-Learning)玩2048游戏并使用加速和加速环境的。使用的算法来自“ ,环境是自定义的 env。该环境包含两种类型的电路板表示形式:二进制和无二进制。第一个使用幂二矩阵来表示电路板的每个图块。相反,没有二进制文件使用原始矩阵板。 该模型使用两种不同类型的神经网络:CNN(卷积神经网络),MLP(多层感知器)。使用CNN作为特征提取器比使用MLP更好。可能是因为CNN可以提取空间特征。结果,代理在1000个已玩游戏的10%中获得2048个图块。 奥图纳 Optuna是一个自动超参数优化软件框架,专门为机器学习而设计。它具有命令式,按运行定义样式的用户API。多亏了我们的运行定义API,用Optuna编写的代码具有高度的模块化,并且Optuna的用户可以动态构造超参数的搜索空间。 还有就是如何使用这个库指南。 Numba 是一种开源JI
1
超级马里奥兄弟的深度强化学习 描述 背景信息:超级马里奥兄弟(SMB)是一款流行的动作游戏,具有“真实的”环境和广阔的状态空间,是设计可玩计算机游戏的强化学习代理的理想平台。 该代理要求与世界上的各种对象和障碍进行交互,以鼓励采用知识丰富的学习方法。 方法-我们使用了OpenAI Gym提供的框架。 超级马里奥兄弟体育馆并从游戏环境中提取了信息,以使用PPO训练RL特工。 我们还向环境引入了预处理方法,例如帧缩放,随机跳帧,帧堆叠和噪声网,以提高代理的性能。 通过引入回滚操作来提高训练的稳定性,可以创建PPO的变体。 结果:该方法成功地训练了能够在20个小时的训练后完成水平的特工。 我们成功实现了一种方法,该方法可以比常规PPO实施更好地执行,在不应用数据预处理的情况下性能提高了50%,在应用数据预处理的情况下性能提高了10%。 工具 Pytorch已被用作主要的机器学习库 由于SMB
2022-11-09 22:52:04 18.11MB reinforcement-learning Python
1
CloudSimPy 数据中心作业调度仿真框架 CloudSimPy 基于离散事件仿真框架 ,利用 Python 语言进行实现; Python 语言的科学计算、深度学习、机器学习生态相较于其他编程语言更加完善,CloudSimPy 可以与具有 Python 支持的深度学习框架(比如 TensorFlow,PyTorch)很好的结合,有助于研究基于机器学习或者深度学习的资源管理方法。 在 CloudSimPy/playground/Non_DAG/algorithm/DeepJS/DRL.py 中的基于深度强化学习的数据中心作业调度算法由 TensorFlow 进行实现,并在其 eager 模式下进行推断和训练。 CloudSimPy 作为数据中心作业调度仿真框架 CloudSimPy 包含两个 Python 包 core 和 playground。 Core core 对数据中心作业调度问
2022-11-02 16:27:31 1.92MB cloud reinforcement-learning schedule datacenter
1
如果您想使用Tensorflow ,不用担心,我像PyTorch一样制作了一个新的Tensorflow教程。 这是链接: : pyTorch教程 在pyTorch的这些教程中,我们将构建我们的第一个神经网络,并尝试构建一些近年来开发的高级神经网络架构。 感谢,它对本教程。 pyTorch基本 建立您的第一个网络 先进的神经网络 / 其他(在制品) 对于说中文的人:下面提到的所有方法都有其中文视频和文字教程。 请访问 。 您也可以观看我的。 捐款 如果这样做对您有帮助,请考虑捐赠以支持我以获得更好的教程。 任何贡献都将不胜感激!
1
在这些教程中,我们将演示和可视化遗传算法,进化策略,NEAT等算法。 下文提到的所有方法都有其中文视频和文本教程。 请访问 。 捐款 如果这样做对您有帮助,请考虑捐赠以支持我以获得更好的教程! 任何贡献都将不胜感激!
1
Reinforcement Learning - An Introduction 2nd 2017
2022-10-17 23:16:53 9.69MB RL
1
本文设计了一个自我监督的注意模块,该模块可以识别感兴趣的显着区域,而无需明确的手工标记注释。在现有的以CNNs为特征提取器的深度RL方法中,可以直接即插即用。 注意模块学习的是前景注意掩码,而不是预定义的关键点数量。
2022-10-12 17:06:59 7.33MB 自注意力
1
dm_env :DeepMind RL环境API 该软件包描述了用于Python强化学习(RL)环境的界面。 它由以下核心组件组成: dm_env.Environment :RL环境的抽象基类。 dm_env.TimeStep :一个容器类,表示每个时间步(过渡)上环境的输出。 dm_env.specs :一个模块,包含用于描述环境消耗的动作的格式以及其返回的观察值,奖励和折扣的原语。 dm_env.test_utils :用于测试具体环境实现是否符合dm_env.Environment接口的工具。 请参阅的文档以获取有关环境接口的语义以及如何使用它的更多信息。 子目录还包含使用dm_env接口实现的RL环境的说明性示例。 安装 dm_env可以使用pip从PyPI安装: pip install dm-env 请注意,从1.4版开始,我们仅支持Python 3.6+。 您还
1
a pdf file about Online Clustering Algorithms and Reinforcement Learning using in onilne clustering
2022-09-24 22:00:09 581KB algorithms online_learning
Reinforcement Learning: An Introduction Second edition, in progress November 5, 2017 Richard S. Sutton and Andrew G. Barto The text is now complete, except possibly for one more case study to be added to Chapter 16. The references still need to be thoroughly checked, and an index still needs to be added. Please send any errors to rich@richsutton.com and barto@cs.umass.edu. We are also very interested in correcting any important omissions in the \Bibliographical and Historical Remarks" at the end of each chapter. If you think of something that really should have been cited, please let us know and we can try to get it corrected before the nal version is printed. The MIT Press Cambridge, Massachusetts London, England
2022-09-15 09:55:26 10.96MB RL
1