论文部分内容阅读
本篇博士论文对离散时间马氏决策过程(discrete-time Markov decision processes, 简记为DTMDP)的一系列问题做了进一步的研究. 这些问题主要包括: (1) 可数状态上极限和下极限两种平均准则下的最优性问题. (2) 一般状态空间中的平均最优平稳策略的存在性条件, 值迭代算法以及最优策略的性质. (3) 一般状态空间中的平均样本轨道最优性问题.(4) 一般状态空间中的方差最优性问题. (5) 一般状态空间中的强n(n = ?1,0)-折扣最优性问题. 本文用新方法所得结果推广了已有文献中相应的结论, 并且可应用于以前所不能处理的若干情形. 此外, 还通过库存系统和受控的排队系统等一些实例, 说明了相应条件和结果的应用.全文共分为七章.第一章为综述, 简要地介绍了马氏决策过程的历史背景, 研究内容, 发展现状以及本文所做的主要工作.第二章讨论了可数状态上极限和下极限两种平均准则下的最优性问题. 我们给出了一组新的最优性条件, 并在此条件下保证存在既是上极限又是下极限平均最优平稳策略. 而且, 本章的条件和结果被应用到一个允许控制的排队模型.第三章讨论了Borel状态空间中的平均最优性问题. 我们首先给出“两个相反方向的最优不等式”, 并给了条件使这两个不等式的解存在. 然后, 从这两个不等式出发, 并在连续紧条件下我们可以保证存在平均最优平稳策略. 我们的条件弱于以往文献中的条件. 特别,我们还给出了一些加在模型原始数据中的新充分性条件. 而且, 我们的方法与DTMDP中著名的“最优不等式方法”稍有不同. 另外, 我们对最优策略的性质也作了进一步的研究. 我们不仅得到了最优策略的两个充分必要条件, 而且给出了最优平稳策略的“半鞅刻划”. 最后, 本章的条件和结果被运用到受控的排队系统和可控的一般化的Potlach过程.第四章讨论了Borel状态空间中的平均期望费用的值迭代问题, 即通过值迭代算法来研