论文部分内容阅读
本文共分为六章.
第一章为综述,简要介绍了马尔可夫决策过程的历史背景,连续时间马尔可夫决策过程、离散时间马尔可夫决策过程和受约束马尔可夫决策过程的研究方法与现状,以及本文选题的依据和主要结果的陈述.
第二章对可数状态空间CTMDP的期望总报酬准则进行了首次探讨.我们在转移率无界,报酬函数可能既无上界又无下界的情形下,利用Kolmogorov向前方程法以及值迭代法,证明了CTMDP总报酬最优方程的解的存在性,再加上常用的连续紧性条件,我们还进一步证明了最优平稳策略的存在性,为第三章的讨论打下理论基础.我们所使用的方法不同于以往在CTMDP中广泛使用的一致化技巧和消失折扣因子法,从而突破了以往文献中要求转移率一致有界和报酬函数非负的限制.
第三章考虑可数状态空间受费用约束的CTMDP期望总报酬准则.我们从CTMDP总报酬最优方程出发,利用引入Lagrange乘子的技巧,首次得到了CTMDP总报酬约束最优策略的存在性证明,并且进一步说明了这个约束最优策略或者是一个平稳策略,或者是一个随机平稳策略,其随机性仅在一个状态上,且只在两个允许行动中采取.最后,我们用一个受控的排队系统说明本章的条件和结果.
第四章首次讨论了可数状态空间上受费用约束的CTMDP平均准则.我们在转移率可能无界,报酬函数可能既无上界也无下界的情形下,从CTMDP平均最优方程出发,利用Lagrange乘子技巧,不仅证明了约束平均最优策略的存在性,而且还刻画出了这个策略的结构.最后,本章的结果被运用到一个受控的排队系统.
第五章考虑一种特殊的CTMDP-受控排队系统的平均最优和约束平均最优的问题.我们放弃了以往文献常用的一致几何遍历性条件和相对值函数条件,给出了一组仅由模型初始数据构造出的新的最优性条件,这个新条件要比前两个常用条件容易验证的多.由于排队系统主要由服务率与到达率来控制,所以本章最后就N个服务设施的排队系统,分别针对其服务控制与到达控制以及服务到达的同时控制各给出一个例子,用来阐述本章的条件与结论.
第六章讨论了多约束CTMDP的折扣准则.与单约束CTMDP不同的是,单约束问题仅考虑费用被一个约束常数控制的情况,而我们考虑多个折扣费用由一个给定的多维约束向量控制的情况.我们在转移率有界,报酬与费用函数可能无上界的情形下,利用一致化技巧,将CTMDP转化为离散时间的马尔可夫决策过程,首次得到了CTMDP多约束折扣最优策略的存在性.