受约束的连续时间马尔可夫决策过程

来源 :中山大学 | 被引量 : 0次 | 上传用户：qq853001313

【摘要】

：

本文共分为六章．第一章为综述，简要介绍了马尔可夫决策过程的历史背景，连续时间马尔可夫决策过程、离散时间马尔可夫决策过程和受约束马尔可夫决策过程的研究方法与现状，以及

【作者】

：

张兰兰

【机构】

：

中山大学

【出处】

：

中山大学

【发表日期】

：

2008年期

【关键词】

：

约束最优策略马尔可夫决策受控排队系统折扣准则平稳策略

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文共分为六章．第一章为综述，简要介绍了马尔可夫决策过程的历史背景，连续时间马尔可夫决策过程、离散时间马尔可夫决策过程和受约束马尔可夫决策过程的研究方法与现状，以及本文选题的依据和主要结果的陈述．第二章对可数状态空间CTMDP的期望总报酬准则进行了首次探讨．我们在转移率无界，报酬函数可能既无上界又无下界的情形下，利用Kolmogorov向前方程法以及值迭代法，证明了CTMDP总报酬最优方程的解的存在性，再加上常用的连续紧性条件，我们还进一步证明了最优平稳策略的存在性，为第三章的讨论打下理论基础．我们所使用的方法不同于以往在CTMDP中广泛使用的一致化技巧和消失折扣因子法，从而突破了以往文献中要求转移率一致有界和报酬函数非负的限制．第三章考虑可数状态空间受费用约束的CTMDP期望总报酬准则．我们从CTMDP总报酬最优方程出发，利用引入Lagrange乘子的技巧，首次得到了CTMDP总报酬约束最优策略的存在性证明，并且进一步说明了这个约束最优策略或者是一个平稳策略，或者是一个随机平稳策略，其随机性仅在一个状态上，且只在两个允许行动中采取．最后，我们用一个受控的排队系统说明本章的条件和结果．第四章首次讨论了可数状态空间上受费用约束的CTMDP平均准则．我们在转移率可能无界，报酬函数可能既无上界也无下界的情形下，从CTMDP平均最优方程出发，利用Lagrange乘子技巧，不仅证明了约束平均最优策略的存在性，而且还刻画出了这个策略的结构．最后，本章的结果被运用到一个受控的排队系统．第五章考虑一种特殊的CTMDP-受控排队系统的平均最优和约束平均最优的问题．我们放弃了以往文献常用的一致几何遍历性条件和相对值函数条件，给出了一组仅由模型初始数据构造出的新的最优性条件，这个新条件要比前两个常用条件容易验证的多．由于排队系统主要由服务率与到达率来控制，所以本章最后就N个服务设施的排队系统，分别针对其服务控制与到达控制以及服务到达的同时控制各给出一个例子，用来阐述本章的条件与结论．第六章讨论了多约束CTMDP的折扣准则．与单约束CTMDP不同的是，单约束问题仅考虑费用被一个约束常数控制的情况，而我们考虑多个折扣费用由一个给定的多维约束向量控制的情况．我们在转移率有界，报酬与费用函数可能无上界的情形下，利用一致化技巧，将CTMDP转化为离散时间的马尔可夫决策过程，首次得到了CTMDP多约束折扣最优策略的存在性．

其他文献

调和映照和拟调和映照的若干结果

调和映照理论是整体微分几何的核心课题之一，它在几何拓扑和理论物理中有广泛而重要的应用。本文除了研究调和映照的一些重要方面以外，还研究了它的各种推广。各种推广的调和映

学位

调和映照拟调和映照整体微分几何常边值单调不等式

XML的模型论语义及其应用

可扩展标记语言(XML)作为Web上数据表示和交换的标准已经获得了巨大的成功，XML数据成了继关系型数据以后最为普遍的一种数据形式。但随着XML在数据交换，应用集成等方面的广泛应

学位

XML语义WebXSDLXML语义可扩展标记语言模型论语义逻辑语言

脉冲、奇异型随机最优控制研究及其应用

本论文应用随机分析、随机微分方程、鞅论等方法，研究了最优控制模型，并将研究成果应用于金融保险、风险控制、收益分配等经济领域.本文组织结构如下:　　第1章简要介绍随机最

学位

最优控制模型随机分析鞅论随机微分方程解析解

中央选人“四不惟”方针为何难以落实

今年夏季,某单位准备通过竞聘从自己单位内部选聘一位工作人员,该单位上级领导对准备发出的《竞聘通知》要求道: “这个通知怎么能行,没有大专以上文凭、中级职称的人,不是人

期刊

选人用人单位全国人才工作中级职称精神文明建设中共中央总书记工作方法日至

Camassa-Holm方程和它的广义方程的周期波解及其极限形式

本文研究以下两类著名的非线性方程的周期波解以及它们的极限．第一类是Camassa-Holm方程 ut+2kux-uxxt+auux=2uxuxx+uuxxx． (1) 第二类是广义Camassa-Holm方程 ut+

学位

Camassa-Holm方程Camassa-Holm方程周期波解周期波解极限形式极限形式孤立波解孤立波解奇异波解奇异波解

模糊模式识别方法的改进及应用

在许多实际的工程问题中，常常会遇到大量的模糊信息，例如在判别边坡稳定性以及分析覆盖型岩溶地面塌陷形成机理及危险性的过程中，所涉及的工程地质条件及岩土体性质参数大多具有

学位

模糊模式识别模糊C-均值聚类广义欧氏权距离贴近度岩溶塌陷

生物荧光断层成像数学理论和重建算法

本文研究生物荧光断层成像问题在扩散近似模型下的数学理论和重建算法。在理论上，本文提出并证明了该问题的等价矩形式，给出了点光源和球形光源的等价性理论，并研究了唯一性理论

学位

生物荧光断层成像扩散近似模型图像重建算法等价矩形式扩散近似

共产党员带头清不良

河南省汤阴农信社党委在全辖支部和党员中深入学习贯彻“三个代表”重要思想,党建工作以抓清收不良贷款,促进不良贷款“双降”主题,积极开展“共产党员带头清不良”活动,取

期刊

汤阴上清

可证明安全的公钥加密方案

安全公钥加密方案的设计和分析是密码学中一个十分重要的问题,特别是适应性选择密文安全的加密方案,是近年来密码学界的研究热点。无论是提出新的加密方案并证明其选择密文安

学位

公钥加密匿名安全选择密文安全明文知晓性

具有部分耗散的三维磁流体方程解的整体存在唯一性

本文考虑的是具有部分耗散的三维磁流体方程解的整体存在唯一性问题，我们证明了如果初始值u0，b0满足‖u0‖H1+‖b0‖H1≤(E)，其中(E)是一个充分小的正数，那么我们所考虑的方程具

学位

三维磁流体方程解唯一整体解

受约束的连续时间马尔可夫决策过程

与本文相关的学术论文