扩展Markov决策过程的性能灵敏度分析与优化

被引量 : 0次 | 上传用户:jeffyi2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,在通讯网络(Internet及无线网络),柔性制造,智能机器人,交通管理等领域,出现了大量的复杂随机动态系统。目前,该类系统的性能优化问题是众多领域的研究热点。这些领域包括控制系统领域,运筹学领域,计算机科学领域以及人工智能领域等等。不同领域出现了解决该问题的不同方法,如控制系统领域的离散事件动态系统的摄动分析方法,运筹学领域的Markov决策过程理论,计算机科学和人工智能领域的强化学习(或神经元动态规划)方法。虽然这些方法对系统结构有着不同的描述,但这些方法都是围绕着同一个目的展开,即寻找一个“最好的策略”来优化系统的性能。 近几年来,一种基于灵敏度观点的优化方法将以上不同领域的不同方法有机的统一起来。该方法以性能势理论为基础,通过两种性能灵敏度公式:性能差公式和性能导数公式,将摄动分析方法,Markov决策过程理论以及强化学习方法统一在同一框架下。该方法不仅可以基于模型采用理论计算的方法来寻找系统的最优策略,而且可以在系统模型参数未知的情况下基于一条样本轨道在线地改进系统性能。因而在某种程度上它解决了该类系统的“维数灾”和“模型灾”问题。目前为止,该方法的主要研究对象为Markov型系统,对非Markov型系统则研究较少。本文在该方法的基础上,主要研究了半Markov决策过程和部分可观Markov决策过程的灵敏度分析和优化问题。半Markov决策过程和部分可观Markov决策过程是Markov决策过程两种不同形式的推广。半Markov决策过程在每个状态的逗留时间是服从一般分布而非指数分布。部分可观Markov决策过程的状态不能直接观测,但能以概率观测到与状态相关的观测信息。这些特点使得对实际系统的描述更加合理,从而基于该两类过程所得到的理论和算法可以更好地应用于很多实际系统的优化。 对半Markov决策过程,通过利用等价Markov决策过程的方法,在平均性能准则和折扣性能准则下,分别引入了两个无穷小矩阵,由此定义了半Markov决策过程的性能势,并导出了半Markov决策过程在平均性能准则和折扣性能准则下的性能差公式和性能导数公式。在此基础上,给出了半Markov决策过程的最优性方程,建立了半Markov决策过程性能梯度的计算和估计方法以及基于势能的策略迭代算法。 对离散时间部分可观Markov决策过程,首先对基于观测的策略下的部分可观Markov决策过程,建立了性能差和性能导数公式。这两种灵敏度公式在一定条件下仅依赖于系统的观测和行动,因而更有利于性能梯度的估计和在线策略迭代的设计。该结果也是Markov决策过程基于事件优化方法在部分可观Markov决策过程的推广。在灵敏度公式的基础上,我们给出了性能梯度的两种估计算法和在线的策略迭代算法。随后,借助于策略的有限状态控制机描述,我们建立了带有有限内部状态的离散时间部分可观Markov决策过程的灵敏度公式。借助于该灵敏度公式,给出了性能梯
其他文献
晶核作为晶体生长过程中新相形成的开始,理解它们的性质和行为特点对纳米材料的控制合成有重要指导意义,尤其对形貌和尺寸的调控。可控合成的超小尺寸纳米晶(〈5 nm)为研究晶核
运用证券组合投资的基本原理和概率论知识 ,对保险公司承保的不同险种选取最优的自留比例再保险决策问题建立了两类数学模型 ,特别是构建了确定性等价收益和单位风险下的超额
<正>安庆“黄梅戏”全国闻名,而黄梅戏起源地众说纷纭,绝大部分人认为起源于湖北黄梅县,可能是由“黄梅”二字引来的误传。“黄梅戏”的确与“黄梅”二字息息相关,但“黄梅”
D类放大器,由于其具有效率高的优点,在越来越多的音频系统中得到应用。传统的D类放大器一般由三部分组成,即调制电路、驱动电路和功率输出电路。虽然,D类放大器具有效率高的
目的:探讨血清鳞状上皮细胞癌抗原(SCC-Ag)指标在宫颈癌术后辅助放疗中的意义。方法:利用微粒子酶免分析技术(MEIA)检测132例宫颈癌(Ⅰb-Ⅱb早)手术病人术前外周静脉血中的SCC-
魏晋南北朝时期南北相对封闭,双方交流很受限制,南北人士特别是士族阶层因各种原因流亡到彼此政权中,这一客观历史现象对于南北朝的发展起了很大作用。有鉴于史学工作者对于
背景和目的: 由于临床研究受多种因素干扰,深入研究心脏骤停(Caridac arrest,CA)和心肺复苏(Cardiopulmonary resuscitation,CPR)的病理生理机制受到一定限制。动物实验的优势
人们已经根据网络信息资源本身的特点或属性,运用各种工具和方法,借助现代先进的计算机技术、网络通信技术的支持对网络信息资源进行了卓有成效的组织和管理,通过对网络信息
本文介绍了质谱数据定性分析软件CMSQualDataProc的设计和实现并讨论了质谱数据定性分析的相关问题,它是质谱仪器软件平台中的数据分析软件。程序CMSQualDataProc是专门为联
地级市是我国新型城镇化可持续发展的核心,其中心城区正处于由中等城市向大城市跨越发展的关键阶段,城市空间尺度和人口规模均将实现较大幅度增长。结合我国地级市城市化发展