论文部分内容阅读
随着科技的发展,在当今社会中,广泛存在着一类复杂的随机动态系统,即离散事件动态系统(DEDS)。Markov决策过程(MDP)是DEDS建模常见的方法,其性能优化问题一直是学者研究的重要方向。Markov性能势理论的提出,为MDP的分析和研究提供了一种新的理论框架。在性能势理论的基础上,我们不仅可以建立基于已知模型参数的理论计算来寻求最优策略,而且可以在模型参数未知时利用基于样本轨道的仿真和在线学习算法来求解。在实际大规模的Markov系统中,串行执行优化算法的时间往往很长,甚至问题求解不可行。采用并行计算是提高MDP执行效率最直接最有效的一种方式。一方面,并行求解能真正缩减算法的计算时间;另一方面,在MDP仿真优化时,并行仿真不仅能加快收敛速度,还有可能得到更为精确的解。因此MDP并行计算的实现对实际大规模MDP的性能优化具有重要的指导作用,本论文主要对MDP并行算法展开研究,研究内容包括基于性能势的MDP理论迭代算法和仿真优化方法的并行化实现。对于MDP理论计算的并行化实现,文章给出了并行数值迭代算法,该算法将状态空间划分为若干个状态子空间,每个处理节点只在一个状态子空间上运算,从而降低优化求解时间。针对随机划分状态空间方法易使处理节点间负载严重不平衡,并行效率低下的问题,论文提出了一种启发式的划分策略。该划分策略将处理器等待时间作为目标函数,通过极小化所有处理器的等待时间来划分和分配状态空间。实验结果表明采用启发式划分方法的并行性能要优于采用随机划分方法。对于MDP仿真算法的并行化实现,论文讨论了并行Q学习和NDP并行优化方法。首先,文章在性能势理论框架内,提出了独立并行Q学习算法和状态划分并行Q学习算法,重点讨论了算法中的关键参数的设计,即同步点如何选择的同步策略和如何合成Q因子的Q值构建策略,探讨了一种固定步长结合一定偏移量的同步策略,并分析了并行中Q值构建策略的确定原则,给出了几种Q值构建策略的选择方法。在NDP并行优化中,论文以神经网络集成有关理论为出发点,采用多个神经元网络并行仿真学习来提高NDP优化效率,提出了两种NDP并行优化算法。文中还给出了三种生成差异度不同的神经元网络的方法,并通过求解实例对比了这三种方法的优化效果。此外,文章还研究了Rollout算法及其并行求解方法。首先,我们给出了基于NDP的在线Rollout算法,提出了状态划分和行动划分的Rollout并行算法,分析了两种并行算法的实用场合,并用于解决多类商品库存控制和多级仓库库存控制问题。