论文部分内容阅读
本文分别针对离散时间折扣准则MOMDP模型、离散时间平均准则MOMDP以及连续时间折扣准则MOMDP模型的摄动问题给予讨论,并分为两步进行。
首先是MOMDP的最优理论。目前对MOMDP非劣策略的存在性问题主要集中于折扣准则MOMDP,因此本文依据文献[3]、[9]中对多目标问题的讨论方法,将文献[11]、[12]中平均准则MDP及连续时间折扣准则MDP的最优方程理论拓展到平均准则MOMDP及连续时间折扣准则MOMDP中,建立上述模型非劣策略所要满足的方程,从而建立MOMDP的最优理论。
其次,由于MOMDP的摄动问题的研究工作目前主要是从转移概率自身的性质出发,通过考察摄动对转移概率的稳态概率的影响,建立基于摄动的策略迭代法[37[38],以此来寻找决策者对MOMDP的满意策略。而就摄动对模型最优策略及最优准则函数的影响的研究目前还只是针对MDP的(见文献[2]、[4]、[8]),本文将文献[2]、[4]、[8]中对MDP摄动问题的理论向多目标情况进行拓展,即讨论转移概率的摄动后原模型的非劣策略是否依然非劣,以及保证非劣策略依然非劣的摄动限度的问题,并得到结论在一定条件下,摄动对非劣策略以及非劣目标向量的影响可以随摄动因子的变化而变化。
因此,如果控制转移概率或转移速率的摄动在很小的范围内,即决策者认为可以接收的范围,那么,我们运用上述的模型所得到的策略就可以更好地解决实际问题了。文中最后以一个多产品的库存管理为例给出了折扣准则MOMDP摄动理论的一个应用。