论文部分内容阅读
随着科学技术的发展,在通讯网络(Internet及无线网络),柔性制造,智能机器人,交通管理等领域,出现了大量的复杂随机动态系统。目前,该类系统的性能优化问题是众多领域的研究热点。这些领域包括控制系统领域,运筹学领域,计算机科学领域以及人工智能领域等等。不同领域出现了解决该问题的不同方法,如控制系统领域的离散事件动态系统的摄动分析方法,运筹学领域的Markov决策过程理论,计算机科学和人工智能领域的强化学习(或神经元动态规划)方法。虽然这些方法对系统结构有着不同的描述,但这些方法都是围绕着同一个目的展开,即寻找一个“最好的策略”来优化系统的性能。 近几年来,一种基于灵敏度观点的优化方法将以上不同领域的不同方法有机的统一起来。该方法以性能势理论为基础,通过两种性能灵敏度公式:性能差公式和性能导数公式,将摄动分析方法,Markov决策过程理论以及强化学习方法统一在同一框架下。该方法不仅可以基于模型采用理论计算的方法来寻找系统的最优策略,而且可以在系统模型参数未知的情况下基于一条样本轨道在线地改进系统性能。因而在某种程度上它解决了该类系统的“维数灾”和“模型灾”问题。目前为止,该方法的主要研究对象为Markov型系统,对非Markov型系统则研究较少。本文在该方法的基础上,主要研究了半Markov决策过程和部分可观Markov决策过程的灵敏度分析和优化问题。半Markov决策过程和部分可观Markov决策过程是Markov决策过程两种不同形式的推广。半Markov决策过程在每个状态的逗留时间是服从一般分布而非指数分布。部分可观Markov决策过程的状态不能直接观测,但能以概率观测到与状态相关的观测信息。这些特点使得对实际系统的描述更加合理,从而基于该两类过程所得到的理论和算法可以更好地应用于很多实际系统的优化。 对半Markov决策过程,通过利用等价Markov决策过程的方法,在平均性能准则和折扣性能准则下,分别引入了两个无穷小矩阵,由此定义了半Markov决策过程的性能势,并导出了半Markov决策过程在平均性能准则和折扣性能准则下的性能差公式和性能导数公式。在此基础上,给出了半Markov决策过程的最优性方程,建立了半Markov决策过程性能梯度的计算和估计方法以及基于势能的策略迭代算法。 对离散时间部分可观Markov决策过程,首先对基于观测的策略下的部分可观Markov决策过程,建立了性能差和性能导数公式。这两种灵敏度公式在一定条件下仅依赖于系统的观测和行动,因而更有利于性能梯度的估计和在线策略迭代的设计。该结果也是Markov决策过程基于事件优化方法在部分可观Markov决策过程的推广。在灵敏度公式的基础上,我们给出了性能梯度的两种估计算法和在线的策略迭代算法。随后,借助于策略的有限状态控制机描述,我们建立了带有有限内部状态的离散时间部分可观Markov决策过程的灵敏度公式。借助于该灵敏度公式,给出了性能梯