连续时间统一MAXQ算法及其应用研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:B08050402
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
具有抽象机制的分层强化学习方法可以实现状态空间的降维,从而解决大规模系统中的“维数灾”问题。由于引入了状态抽象机制,分层强化学习可以加快策略学习的速率并且节约学习过程中状态-行动对的存储空间。典型的分层强化学习有Option算法、HAM算法以及MAXQ算法。然而传统的分层强化学习算法大都是建立在离散时间半Markov模型或者离散时间多Agent半Markov模型的框架下的,无法解决连续时间情况下单Agent、多Agent的学习系统问题,并且算法只能单独适用于平均准则或者是折扣准则。本文在性能势理论框架下,结合现有的MAXQ算法思想和连续时间SMDP模型,提出一种同时适用于平均和折扣性能准则的连续时间统一MAXQ算法。由于Web服务组合问题可以建模成半Markov决策过程模型,因此本文将提出的算法应用于Web服务组合问题中,以验证算法具有实际意义。另外,通过旅游预订系统作为仿真实例,说明该算法与Q学习相比,具有优化精度高、优化速度快和节约存储空间的优势。但是,由于单Agent的能力有限,越来越多的复杂问题需要通过多Agent的相互协作来解决。因此本文结合性能势理论和之前构造的连续时间统一MAXQ算法思想,又提出了一种同时适用于平均和折扣性能准则的多Agent连续时间统一MAXQ算法,并将该算法应用于解决多Agent连续时间Web服务组合问题中。最后通过旅游预订系统作为仿真实例,说明该算法比single-Agent MAXQ和selfish multi-Agent MAXQ算法都具有更好的优化效果,同时也加快了学习速率且节约了存储空间。
其他文献
自从语义网的概念提出以来,越来越多的开放链接数据和用户生成内容被发布于互联网中,这使得Web数据呈现出结构松散化、内容碎片化、语义复杂化等特征,已不能满足人们对信息快
语义网(SemanticWeb)作为第三代Web已经不同于当前已有的Web技术,智能语义程序介入网络资源流程,能够进行有针对性的发送和获取信息;实现数据语义连接,为人类提供全新的网络服务模
随着电子商务的蓬勃发展和网络购物用户的增加,作为消费者反馈信息的在线产品评论也呈现快速增长之势。实现产品评论的自动挖掘对商家和潜在的消费者有着重要意义。由于产品评
在遥感图像纹理分割中,尺度的选择仍是制约分割精度的难点。本文首先针对遥感图像植被纹理分割中单一层次多分类方法不能充分利用各目标纹理尺度实现精确的多分类问题,提出了一种基于谱直方图的分层次多尺度的植被细分割方法。进一步,推广该方法,提出一种河流湿地遥感图像分层次多尺度的分割方法,将分层次多尺度分割方法推广到遥感图像的主要地物目标的分割处理中。针对植被的分类研究,植被细分割一般有3个目标,按尺度分为乔
油田信息化是油田采油生产的发展方向,油田自动化信息系统主要包括油井远程监控、配电线路自动化系统、输油管线泄露监测、集输站库自动化监控等四个部分,其中油井远程监控系统
随着供应链全球化和社会化进程的深入,企业之间的协作已越来越频繁,供应链优化以及协作管理也越来越受到重视;另一方面,节能减排和产品质量及安全的战略对产品全生命周期管理提出
免疫系统是生命系统的主要系统之一,它通过从不同种类的抗体结构中构造自己与非己的非线性自适应网络,在处理复杂变化的环境中起着重要的作用。受免疫系统原理启发而发展起来
现在几乎任何数据驱动的程序都要用到报表。而传统的定制报表方式开发工作量大,后期维护繁重,报表在灵活性、易用性、高效性以及数据一致性等方面都面临巨大的挑战。有的系统
作为传统加密方法的有效补充手段,数字水印(Digital Watermarking)是一种可以在开放的网络环境下保护版权和认证来源及完整性的新技术,近年来已引起了人们的高度重视,并已成
随着计算机硬件技术和网络技术的迅猛发展,三维模型在工业产品设计、虚拟现实、生物医疗、地理信息及3D游戏动画等领域得到了广泛应用。同时,随着人们对视觉感知更为形象逼真