马尔科夫决策过程中可以采用策略迭代方式得到最优策略,本算法程序用matlab语言编程实现,可以调用该程序得到最优策略
2021-04-17 17:24:44 1KB MDP 策略迭代
1
马尔可夫决策过程 概述 该存储库运行3种强化算法:策略迭代,值迭代和Q学习,以解决2个MDP问题:悬崖行走和20X20冻湖网格,并比较它们的性能。 运行步骤 需要Python 3.6 使用pip从Requirements.txt安装需求 使用python 3运行以下命令以创建数据和图形文件: python run_experiment.py-全部 python run_experiment.py --plot 获得的结果 有关获得的结果的更多信息,请参考Analysis.pdf。 悬崖行走问题 问题 结果 冻湖网格问题 问题 结果
2021-03-03 17:16:25 3.63MB Python
1