连续时间部分可观Markov决策过程的策略梯度估计

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户:cynthia0737
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用.
其他文献
医院内感染对于妇产科这一特殊科室的管理和患者的预后有着十分重要的影响,如何降低医院内感染率是护理管理的重要话题。本研究选取妇产科210位患者为研究对象,旨在探讨无缝
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
传统“曲式学”及在此基础上发展来的“曲式与作品分析”课程是内蒙古地区音乐类专业学生的必修课程之一。随着专业音乐创作与表演的民族化意识日渐强大,民族风格的作品分析
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
自2004年3月以来,我区先后在18所中小学幼儿园开展了“京剧进校园”活动。经过3年努力,现在宝安京剧娃已将《红灯记》、《苏三起解》等多个京剧现代剧和传统名剧唱到北京,唱出国门弘扬了
报纸
复杂自然场景下的车辆检测是智能监控系统研究中的重要课题,在彩色自然场景下,由于车辆所处的环境受一些自然因素的影响,车辆检测就成了比较难解决的问题,其中有效的特征选择
城市化进程促进了建筑业的发展,借鉴工业生产中的供应链管理模式,建筑业供应链管理逐渐发展起来,成为一种新的管理模式。近年来,绿色理念不断渗透到各行各业,建筑绿色供应链
锅炉属于承压设备,能否安全运行,对人们的生产、生活有重大影响。锅炉在使用当中经常会发生一些问题,需要及时发现并予以解决,因此要重视锅炉的检验工作,以保障锅炉质量和运
创刊于1911年9月的《青鞜》是日本最早依靠女性自身力量创办的女性杂志,在20世纪70年代中期以后,随着第二波女性主义浪潮的涌起,《青鞜》的价值被人们重新认识和评价,改变了
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield