有限阶段半马尔可夫决策过程

来源 :中山大学 | 被引量 : 0次 | 上传用户:bittermonkey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究有限阶段半马尔可夫决策过程(简记为SMDPs)。本文考虑有限阶段期望报酬准则,研究可数状态空间,有限行动空间和无界报酬的模型。与无限阶段半马氏过程不同,在本文中当系统达到计划时间T后就立即结束,达到T之前系统的转移次数是不确定的。本文希望找到一个方法来刻画有限阶段SMDPs的最优方程和最优策略。   全文主要由三部分组成:   第一部分简单介绍了有限阶段SMDPs的模型,通过引入剩余时间,首次给出了既依赖于系统当前状态又依赖于系统当前剩余时间的决策规则和策略,并在此基础上构建了概率空间和相应的期望报酬最优准则。   第二部分首先提出了全文的一个基本假设.在给定假设的基础上得到了一个计算策略π期望报酬的迭代算法。   然后由不动点理论,本文证明了最优值函数是最优方程的唯一解,并给出了一个计算最优值函数的迭代算法。另外,从最优方程出发,本文证明了最优平稳策略的存在性和最优策略的一些性质.最后用一个设备维护的实际例子进一步阐明本文得到的结论。   第三部分研究了在半马尔可夫核Q的某种特殊情形下SMDPs有限阶段模型转化成了连续时间马尔可夫决策过程(简记为CTMDPs)有限阶段模型和离散时间马尔可夫决策过程(简记为DTMDPs)有限阶段模型,于是本文是对有限阶段CTMDPs和DTMDPs的推广。
其他文献
近几年,随着网络的快速发展,一种新型的商业创新模式—众包应运而生。众包展现出的巨大商业魅力得到众多企业的青睐。然而,由于众包用户的自私特性,致力于最大化自身效益,从而产生
《中国拆弹部队:战雷》讲述了高等和林峰一起为扫雷做出了巨大贡献。随后,二人又加入了勘界扫雷保障小组,率领战友们打通了勘界通道,扫除了新立界碑点周围的雷场,圆满完成了
粗糙集理论和模糊集理论是两种处理不精确、不完备和模糊信息的互补的数学工具.粗糙集的优点是不需要先验知识,因此得到的结论很客观;而模糊集的隶属度函数大多由专家给出,结
随着我国改革开放深入,国际经济、政治交往频繁,对我国高职教育人才的英语水平要求逐渐提高。但是我国对高职人才的英语教育水平总体较低,解决这一问题需要转变高职英语教学理念
信息化、数字化时代的来临,为高中化学课堂教学创造了新的改革机遇.教师应该结合时代创新教育要求,对自身的应试教育观念进行转变,及时更新教学思路,根据学生的实际需求,制定
在这篇文章中,我们考虑带有Navier摩擦边界条件的三维有界区域上不可压缩的Navier-Stokes方程并证明了两种结果。第一种是在有界区域上,如果初始值和强制项在L2空间中,我们证明
在国家对高校科研投入逐步增长和高校实行教师聘任制考评的社会背景下,对教师科研工作的评价引起了高度重视。基于此,本文从职称评审角度对我国高校教师科研评价进行了探讨,
伴随着媒体市场化的发展,收视效果的评估与预测在电视台的营销决策中作用越来越大。伴随着电视业市场化转型的步伐,多数电视台从90年代后期开始使用收视率数据,我国电视业在
随着科学技术的发展,作为动力学的基础,微分方程的振动性受到越来越多专家学者的青睐.由于分数阶微分方程的在实际问题中大量涌现,使得对分数阶微分方程的研究成为热点。作为
数值算法的动力学特征一直被众多学者所关注,它包括很多内容,如收敛性、稳定性、耗散性、正则性、混沌、分叉等等.本文在已有结果的基础上,着重研究一般线性方法求解带离散与分