上传者: 42125826
|
上传时间: 2022-03-22 00:08:59
|
文件大小: 20.58MB
|
文件类型: -
使用演化策略模型学习RL的综合环境:
AcroBot-v1和CartPole-v0:
可以在这里下载模型: :
文献资料
待办事项:更新requiements.txt
学习综合环境
优化用于学习合成环境的超参数(三级优化)
用于GridWorld和OpenAI Gym任务
分数转换的评估
(5.2合成环境:分数转换,图6)
HPO后训练综合环境
用于GridWorld和OpenAI Gym任务(5.5。综合环境:性能,图12)
剩余脚本列表
产生以下图形的脚本列表(以及如何调用):2,7,8,10
学习奖励塑造
培训奖励网络
(5.7奖励塑造:绩效,图14)
评估HP差异和转移
(5.8奖励塑造:概括,图15、16)
剩余脚本列表
列出产生以下图形的脚本:13