零阶学习分类元系统ZCS(Zeroth-level Classifier System)作为一种基于遗传的机器学习技术(Genetics-Based Machine Learning),在解决多步学习问题上,已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术,难于适应更为广泛的应用领域。基于ZCS的现有框架,提出了一种采用平均奖赏强化学习技术(R-学习算法)的分类元系统,将ZCS中的折扣奖赏强化学习方法替换为R-学习算法,从而使ZCS一方面可应用于需要优化平均奖赏的问题领域,另一方面则可求解规模较大、需要动作长链支持的多步学习问题。实验显示,在多步学习问题中,该系统可给出满意解,且在维持动作长链,以及克服过泛化问题方面,具有更优的特性。
2022-05-22 10:50:16 644KB 论文研究
1
安装 首先在requirements.txt安装需求,然后运行pip install -e .
2022-05-20 11:20:21 932KB JupyterNotebook
1
使用强化学习和深度强化学习算法来优化基于无人机的蜂窝网络以获得更高的吞吐量
2022-05-11 09:04:39 1.96MB 算法 网络 python 开发语言
著名的强化学习算法 Proximal Policy Optimization 的另一种自定义实现,也称为 PPO
2022-05-11 09:04:05 25KB 算法 源码软件
所有代码都是用Python 3编写的,并使用OpenAI Gym的RL环境。高级技术使用Tensorflow实现神经网络。 This repository provides code, exercises and solutions for popular Reinforcement Learning algorithms. These are meant to serve as a learning tool to complement the theoretical materials from Reinforcement Learning: An Introduction (2nd Edition) David Silver's Reinforcement Learning Course Each folder in corresponds to one or more chapters of the above textbook and/or course. In addition to exercises and solution, each folder als
2022-04-30 22:06:43 1.49MB python 算法 源码软件 开发语言
概述 这是pytorch中基于模型的RL算法MBPO的重新实现,如下文所述:。 该代码基于的使用张量流集成模型重现了结果,但使用pytorch集成模型却表现出明显的性能下降。 这段代码使用pytorch重新实现了集成动力学模型,并缩小了差距。 转载结果 比较是在两个任务上完成的,而其他任务没有经过测试。 但是在经过测试的两个任务上,与官方的tensorflow代码相比,pytorch实现获得了类似的性能。 依存关系 MuJoCo 1.5和MuJoCo 2.0 用法 python main_mbpo.py --env_name'Walker2d-v2'--num_epoch 300 --model_type'pytorch' python main_mbpo.py --env_name'Hopper-v2'--num_epoch 300 --model_type'pytorch' 参考
2022-04-20 11:15:37 172KB Python
1
基于python的强化学习算法Q-learning设计与实现
2022-04-17 12:05:50 6KB python 算法 开发语言
基于Jupyter Notebook与python的深度强化学习算法Deep Q Learning
2022-04-17 09:07:37 20KB python jupyter 算法 深度学习
基于Jupyter Notebook与python的深度强化学习算法Double DQN Solution
2022-04-17 09:07:36 21KB python jupyter 算法 开发语言
基于python的深度强化学习算法Deep Q Learning实现
2022-04-17 09:07:36 16KB python 算法 深度学习 开发语言