广义可测下的MDP无界费用折扣模型

来源 :中山大学 | 被引量 : 0次 | 上传用户:tianshiye45
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本篇硕士论文考虑的是马氏决策过程(Markov Decision Processes,简记为MDP)的折扣模型,分别在广义可测策略下对离散时间和连续时间MDP折扣模型作了讨论。其中,状态空间和行动空间都为Borel空间,费用函数可以即无上界也无下界,并且对于连续时间情形下的转移率也可以是无界的。我们分别对离散时间和连续时间MDP折扣模型提出了下半解析及其相关假设,然后确定了最优方程,并基于广义可测选择定理证明了ε(>0)最优平稳策略的存在性,推广了Bertsekas 和 Shreve,Dynkin 和 Yushkevich,Hernández-Lerma和Lasserre,以及Guo,X.P中的主要结果。全文共分四章: 第一章为综述,简要地介绍了马氏决策过程的历史背景,研究内容,分别阐述了离散时间和连续时间MDP折扣模型的发展现状以及本文所做的丰要工作。 第二章介绍了广义可测的相关概念和定理,包括广义可测的概念,下半解析函数的定义及其性质,以及广义可测选择定理。 第三章讨论了离散时间MDP折扣模型,首先我们给出了广义可测策略的定义,进而提出了下半解析相关条件。值得注意的是此条件远远弱于以往文献中的连续紧等假设条件。然后我们在此条件下利用动态规划算子建立了最优方程,并证明了它是压缩算子,从而利用Banach不动点定理保证了最优方程解的存在,而后证明了它等于最优费用函数。在证明过程中,我们可以得到最优费用函数的下半解析性,从而可以利用广义可测选择定理保证ε(>0)最优平稳策略的存在性。 第四章讨论了连续时间MDP折扣模型,首先同样给出广义可测策略的定义,然后提出下半解析相关假设。省去了以往常用的连续紧条件。在此条件下,我们利用Feller最小Q过程的构造方法证明了任意策略对应的转移函数都是正则的。而后我们利用线性算子构造了最优方程,证明了此算子从某个特殊的初始点开始迭代是单调递减的,并且运用扩展的无穷小生成元方法证明了它收敛于最优费用函数。同时,由收敛性保证了最优费用函数的下半解析性,最后利用广义可测选择定理确定了ε(>0)最优平稳策略的存在性。
其他文献
英语词汇在英语学习中起着重要作用,也是大学生英语学习的困难所在.然而,随着科技的日益发达,移动应用对大学生英语学习影响越来越大,尤其对英语词汇学习的影响.因此本文对移
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
学位
传统的学校和家庭交流方式主要是家访和家长会。时间和地点都很受限制,沟通的方式极其不便。集成型“家校通”系统是一个融合了SMS(短信息服务,Short Message Service)、IVR(In
Ramsey理论是一个非常重要的数学分支,其重要性在于它揭示了一个重要哲理:完全无序是不可能的!Ramsey数R(G1,G2)是满足以下性质的最小的整数n:对任意一个有n个顶点的图G,或者G1是G
本文对稳定机翼绕流问题数值方法的发展历史做了系统的回顾,同时提出了一种新的高效求解该问题的数值方法,并且通过数值实验结果验证了方法的稳定性和高效性. 本文首先介绍了
本文主要讨论了以下三阶特征值问题:此处公式省略。所对应的Bargmann系统及其可积性.  首先简单的介绍了一些基本的概念,然后通过辅谱问题以及等谱相容性条件,定义了合理的双H
语文教学是塑造学生人格和培养语文素养的主渠道,阅读教学则显得尤为重要。因为教材中蕴涵着丰富的教育因素,只要教师找准切人点,采用一系列的方法,把人格教育和提高语文素养
分布式拒绝服务攻击DDoS(Distributed Denial of Service)是目前Internet上的最严重的网络安全隐患之一,攻击者通过向目标发送大量的数据包来消耗目标的资源或者网络带宽来达
当代大学生学习主动性不高,本文通过大学和高中的对比分析了学生主动性不足的原因,通过实际育人过程中采用的微课堂活动方式的实际效果,进行不断探索和优化,打造“航宇微课堂