SMDP基于性能势的异步优化算法

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:sky_bj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会和科技的发展,离散事件动态系统(DEDS)的性能分析和优化应用已经成为控制与系统、管理、计算机等学科交叉领域内的一个前沿研究方向。半马尔可夫决策过程(SMDP)作为现实中一类广泛的系统模型,可以用来描述大部分的实际系统。由于实际应用的需要,SMDP的优化控制已经成为控制理论界的研究热点之一。性能势理论的完善为SMDP的优化控制提供了一个较为完整的理论框架。 本文主要在性能势的基础上,研究SMDP在紧致行动集上的异步优化算法,且所有算法是折扣准则和平均准则统一的。首先介绍了SMDP在紧致行动集上基于无穷小矩阵A_α~ν的标准数值迭代,给出算法,并证明其收敛性,另外讨论了两种性能准则下的异步数值迭代算法,其中主要介绍Gauss-Seidel迭代和基于样本轨道仿真的异步数值迭代。然后基于性能势的思想对有关的算法进行改进。以上研究结果均可适用于连续时间马尔可夫决策过程(CTMDP)。 传统的理论计算优化算法优化精度高,优化速度快,但不能适用于大规模系统,而基于仿真的优化算法,如TD学习、NDP优化等可以解决理论优化算法的问题,结合这两种方法的特点,本文讨论了异步策略迭代的几种形式,如M步向前策略迭代,基于TD学习的M步向前策略迭代,基于NDP学习的M步向前策略迭代算法。以上几种算法均是折扣准则与平均准则统一的。 本文用一个SMDP的数值实例来说明相关优化算法的应用,比较各种算法的优缺点,该结果可以直接运用到连续时间马尔可夫决策过程中。 在异步优化算法的基础上,文章还介绍了优化仿真平台的构建问题,该平台可根据实际系统的需要,设定参数值,为部分系统的性能优化提供便利。
其他文献
近年来,随着计算机技术与网络技术突飞猛进的发展,现代企业遇到了巨大的机遇与挑战。如何提高自身的竞争力?很多企业都认识到企业信息化是企业强大的必由之路,然而我国企业信
随着大数据时代的到来,如何高效地分析处理海量数据成为了计算机学科的一个新的挑战。MapReduce就是在此背景下出现并飞速发展的一种计算模型。在此之前,并非没有并行计算模型,
关联规则问题是数据挖掘领域的一个研究热点。该问题的解决分为两步:频繁项集挖掘和利用这些频繁项集产生强关联规则。由于第一步决定着整体性能,因此研究频繁项集挖掘问题具有
并行/分布式数据挖掘是针对当前信息量日益增大以及数据所呈现的高维、异构和分布式存储等特性而出现的新的研究课题,分类规则挖掘是数据挖掘领域的重要分支。本文着重对多数
本文主要针对数字音频水印的稳健性、理论模型及抗几何变换攻击等问题展开研究,针对现有一些数字音频水印算法中的同步问题缺陷,提出了一种基于离散小波变换DWT(DiscreteWavele
时态数据预测是时态数据挖掘的一个重要的研究方向。它是用被预测事物过去或现在的已知数据,构造依时间变化的挖掘模型,对将来的未知做出预测。支持向量机是九十年代中期提出来
本文主要对视觉坐标测量机的仿真模型进行研究,以摄像机为测头,进行非接触式立体视觉测量。该模型通过对摄像机的运动控制,形成多目立体视觉模型,实现了基于多目的非接触仿真
入侵事件的日益猖獗,人们发现只从防御的角度构造安全系统是不够的。入侵检测系统IDS是继防火墙、数据加密等传统安全保护措施后新一代的安全保障技术。它对计算机和网络资源
JXTA技术是网络编程和计算的平台,是用以解决现代分布计算尤其是点对点(P2P)计算中出现的问题的一种技术规范。JXTA技术提供了基础性的机制解决当前分布计算应用中面临的问题
随着人们对软件系统的要求不断地提高,形式化技术得到了充分的发展。过去人们依赖于优秀的软件工程师来对软件系统可靠性和安全性提供保证,而如今,人们可以使用已有的形式化技术