大规模Markov决策过程基于性能势的并行算法研究与应用

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:bright_123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,在当今社会中,广泛存在着一类复杂的随机动态系统,即离散事件动态系统(DEDS)。Markov决策过程(MDP)是DEDS建模常见的方法,其性能优化问题一直是学者研究的重要方向。Markov性能势理论的提出,为MDP的分析和研究提供了一种新的理论框架。在性能势理论的基础上,我们不仅可以建立基于已知模型参数的理论计算来寻求最优策略,而且可以在模型参数未知时利用基于样本轨道的仿真和在线学习算法来求解。在实际大规模的Markov系统中,串行执行优化算法的时间往往很长,甚至问题求解不可行。采用并行计算是提高MDP执行效率最直接最有效的一种方式。一方面,并行求解能真正缩减算法的计算时间;另一方面,在MDP仿真优化时,并行仿真不仅能加快收敛速度,还有可能得到更为精确的解。因此MDP并行计算的实现对实际大规模MDP的性能优化具有重要的指导作用,本论文主要对MDP并行算法展开研究,研究内容包括基于性能势的MDP理论迭代算法和仿真优化方法的并行化实现。对于MDP理论计算的并行化实现,文章给出了并行数值迭代算法,该算法将状态空间划分为若干个状态子空间,每个处理节点只在一个状态子空间上运算,从而降低优化求解时间。针对随机划分状态空间方法易使处理节点间负载严重不平衡,并行效率低下的问题,论文提出了一种启发式的划分策略。该划分策略将处理器等待时间作为目标函数,通过极小化所有处理器的等待时间来划分和分配状态空间。实验结果表明采用启发式划分方法的并行性能要优于采用随机划分方法。对于MDP仿真算法的并行化实现,论文讨论了并行Q学习和NDP并行优化方法。首先,文章在性能势理论框架内,提出了独立并行Q学习算法和状态划分并行Q学习算法,重点讨论了算法中的关键参数的设计,即同步点如何选择的同步策略和如何合成Q因子的Q值构建策略,探讨了一种固定步长结合一定偏移量的同步策略,并分析了并行中Q值构建策略的确定原则,给出了几种Q值构建策略的选择方法。在NDP并行优化中,论文以神经网络集成有关理论为出发点,采用多个神经元网络并行仿真学习来提高NDP优化效率,提出了两种NDP并行优化算法。文中还给出了三种生成差异度不同的神经元网络的方法,并通过求解实例对比了这三种方法的优化效果。此外,文章还研究了Rollout算法及其并行求解方法。首先,我们给出了基于NDP的在线Rollout算法,提出了状态划分和行动划分的Rollout并行算法,分析了两种并行算法的实用场合,并用于解决多类商品库存控制和多级仓库库存控制问题。
其他文献
在现代社会,随着科学技术的进步和网络技术的飞速发展,以网络为基础的集群并行计算环境以其较高的性价比引起了人们的广泛重视。集群并行计算机系统是利用高速通信网络将一组高
所谓3G手机即第三代手机,是泛指能够将语音通信和多媒体通信相结合的新一代移动通信系统。3G手机具备强大功能的基础是极高的数据通信速度,目前的GSM移动通信网的传输速度为960
随着Internet的迅猛发展和多媒体通信技术的快速进步,在IP网络上进行远程教育越来越受到人们的广泛重视,网络上的通讯技术己经成为现代信息社会不可缺少的一种需求和技术热点。
本文研究探讨了基于P2P的电子供应链管理,从三个方面进行分析和研究,分别为电子供应链管理理论;P2P技术及其在电子供应链管理中的应用。全面介绍了电子供应链概念、特点、结构及
无刷直流电机保持了普通直流电机优良的机械性能,同时克服了直流电机换相电刷易于产生火花等弊端,因此在家用电器,机器人,仪器仪表,以及医疗器械等方面得到广泛的应用。无刷直流电机存在周期性的换相转矩脉动,限制了其在高端伺服领域的应用。同时,位置传感器的存在提高了系统成本,降低了系统在复杂环境下的可靠性。因此对无位置传感器无刷直流电机换相转矩脉动抑制策略的研究具有重要的理论意义与实践应用价值。论文的主要研
在项目反应理论中,如何合理的选择参数估计方法是一个重要问题。用于项目反应理论中参数估计的方法有χ2/EM方法,SQRT/EM方法,修正的MIDI方法,等等。本文引入一种新的参数估
数据挖掘(Data Mining)是在应用需求的背景下产生并迅速发展起来的、开发信息资源的一套科学方法、算法及软件工具和环境,是集统计学、人工智能、模式识别、并行计算、机器学
目标跟踪是无线传感器网络的一个重要应用,如军事侦察中的车辆跟踪、生态监测中的动物追踪等。在这些应用里,由于传感器节点的电池能源有限,使得跟踪质量和网络生命周期成为
序列比对是生物信息学中最常见的问题之一,也是一种重要的生物信息处理技术。它通过对生物序列数据进相似性比较,来发现生物序列中的功能、结构和进化等信息,是基因识别、分
由于传统的边界防火墙存在单点失效和性能瓶颈的问题,并且依赖于网络的拓扑结构实施其安全策略,使其局限性越来越明显。正是在这种背景下人们提出了分布式防火墙的概念。在分布