只为小站
首页
域名查询
文件下载
登录
论文研究 -
连续时间马尔可夫决策过程
的方差优化
本文考虑了
连续时间马尔可夫决策过程
中平均报酬的方差优化问题。 假设状态空间是可计数的,而动作空间是Borel可测量的空间。 本文的主要目的是在确定性平稳策略空间中找到方差最小的策略。 与传统的马尔可夫决策过程不同,方差准则中的成本函数将受到未来行动的影响。 为此,我们通过引入称为伪方差的概念将方差最小化问题转换为标准(MDP)。 通过给出伪方差优化问题的策略迭代算法,推导了原始方差优化问题的最优策略,并给出了方差最优策略的充分条件。 最后,我们用一个例子来说明本文的结论。
2024-01-10 23:19:32
398KB
连续时间马尔可夫决策过程
策略迭代
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
麻雀搜索算法(SSA)优化bp网络
多目标优化算法(四)NSGA3的代码(python3.6)
RNN-LSTM卷积神经网络Matlab实现
ChinaMeteorologicalDataHandler.R
基于S函数的BP神经网络PID控制器及Simulink仿真和对应代码模型.zip
IBM CPLEX 12.10 学术版 mac操作系统安装包
数据结构课后习题答案
ios无人直播 虚拟视频实用版 可以导入视频
2021华为芯片研发岗位笔试题
多智能体的编队控制matlab程序(自己编写的,可以运行)
华为结构与材料工程师-知识点总结【by詹姆斯申易登】.pdf
多智能体的编队控制程序的补充(之前上传少了一个文件)
2022学术英语写作(东南大学) 章节测试+期末test答案
2020年数学建模国赛C题论文
多机器人编队及避障仿真算法.zip
最新下载
西门子S5_PLC编程软件
金蝶云 WebAPI接口说明书_V4.0.docx
超厉害的象棋开局库obk文件
DeltaV硬件手册
rx560,rx560560D,VBIOS合集
LabTool-48UXP Win10专业版/Win11专业版驱动
WINTECH TDS510仿真器驱动
中国地面气候资料日值数据集(V3.0)2014-2019.zip
电压电流转化电路
计算几何——算法设计与分析(第3版)
其他资源
进程调度的设计与实现
MIT_App_Inventor_2.3.0_win_setup.rar
史陶比尔机器人主机培训资料
微软ewf+uwf+win8&10+64&32+控制台
MATLAB使用矩量法分析线天线
STM32f103两线PT100例程.rar
halcon详细解释+例程---如何将任意一张照片上的四边形抠出来再工整地展示
《基于SPSS的数据分析(第3版》实例数据文件
语音信号基带传输通信系统仿真——基于PCM编码和汉明码
php72u-cli-7.2.9-1.ius.centos7.x86_64.rpm
农村电商运营平台建设方案.pptx
数据结构课程设计(应用索引文件和查找算法的学生信息管理程序)
家校通系统源码(强大保证能用带数据库)
嵌入式C语言面试题汇总
删除了删除了删除了删除了删除了删除了删除了删除了删除了删除了删除了
STM32-I2C程序例程
pcie2.0 test methodology
FUNDAMENTALS OF Database Systems 第7版
Single Page Web Applications JavaScript end-to-end