论文部分内容阅读
本文考虑连续时间Markov决策过程平均报酬的方差优化问题.假设状态空间是可数的,行动空间是Borel可测空间.本文的主要目的是在确定性平稳策略类里寻找方差最小的策略.有别于传统的Markov决策过程,该方差准则中的费用函数将受未来行动的影响.为此,我们通过引入“伪方差”,将初始的方差优化问题转化为“伪方差”优化问题.进一步,通过给出“伪方差”优化问题的策略迭代算法,导出原方差优化问题的最优策略,接着通过定义方差差分公式,给出了方差最优策略的一个必要条件.最后,我们将证明其在排队系统和受灾难控制的生存死亡过程中的应用。