论文部分内容阅读
本文主要是研究离散时间马尔可夫决策过程最优平稳策略的灵敏度分析及其应用。
全文主要内容由理论基础和实例应用两部分组成。
本文介绍了离散时间的马尔可夫决策过程(DTMDP)的数学描述和决策规则,回顾了线性规划与灵敏度分析的知识,借助定义最优性方程,分别给出了DTMDP折扣模型与DTMDP平均模型这两种常见的DTMDP模型用线性规划问题的描述和用线性规划寻优的算法,也分别论证了这两种DTMDP模型中最优平稳策略与对偶规划最优解的关系,进而以运筹学中的灵敏度分析理论为基础,分别研究了这两种DTMDP模型最优平稳策略的灵敏度分析,其中对DTMDP平均模型还分遍历链、单链、多链三种情况来讨论,并分别通过实例来说明这种灵敏度分析方法的可行性应用。