基于规划融合的多Agent系统协调机制研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:tcy789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多Agent系统中,Agent之间的协调关系是影响多Agent智能的一个重要方面,协调的目的在于通过信息共享和通信交互,对任务目标、行为动作进行合理安排,以最大限度的发挥多Agent的整体性能。在众多解决多Agent系统协调问题的方法中,智能规划是解决多Agent系统协调问题中的一种有效方法,而马尔可夫决策过程是解决智能体规划问题的一种有效理论模型,它的基本思想是:通过Agent与周围环境的交互反馈来感知环境的状态并不断修正自己的行为,以寻求解决问题的最优或次优策略。本文以马尔可夫决策模型及多Agent系统下的部分可观察马尔可夫决策模型为理论基础,研究了多Agent系统的两类协调问题:任务协调和行为协调,这里的任务协调具体是指动态任务分配问题,主要的研究内容包括以下几个方面。首先,对集中式的动态任务分配问题,根据分配任务的不确定性,系统收益的最大化需求以及分配过程序贯决策特征,利用马尔可夫决策模型进行了分析建模,赋予抽象的模型要素以问题相关的形式化描述,并在一定的前提条件下证明了最优分配策略的存在性。对模型的求解过程综合了值迭代和策略迭代的方法,实验结果表明,该方法在保证得到最优或次优策略的同时减少了迭代的次数,提高了收敛速度。其次,对动态任务分配中的再分配问题,通过分析再分配任务产生的原因,对初始分配策略进行了一定的调整,使得因各种原因而剩余的任务能够继续参与到动态分配的任务队列中,直到所有的任务最终都能得到合理的解决,加强了模型的健壮性。此外,对多Agent系统中Agent之间的行为协调问题,针对环境部分可观察性、需记忆的历史信息量大、通信资源非常有限的特点、提出了一种基于规划融合的行为协调机制,在该机制中,通过等价性定义和历史的可合并定理限制了历史信息的规模,采用对可能的冲突检测和延迟通信的方法合理的利用有限资源来提高系统收益和协调效率。通过实验,表明了此机制能够有效的提高利用历史信息进行决策的系统收益,而且在一定冲突度下能够利用有限通信资源提高协调效率和能力。
其他文献
互联网的广泛应用以及数字产品的迅猛发展给人们的工作和学习带来新的生机。像音乐、图像和视频等数字产品因为被人们所热衷,使得他们成为非法者获取、复制以及传播的对象。
互联网的快速发展给人们带来了新的获取信息和交流的方式。随着网站和网页数目的不断增加,为了用户能方便的访问它们,搜索引擎应运而生。但由于互联网上存在大量的因转载或抄
学位
信息保障不同于传统的安全技术,它强调信息系统的整个生命周期的防御和恢复。入侵检测系统作为信息安全保障的一个重要部分,可以较好的弥补传统的保护机制不能解决的问题。数
随着社会的发展,科技的进步,人与人之间在交往的过程中进行的身份鉴定成为建立信用的保障,人脸识别技术应运而生,特征提取作为其关键环节成为研究的热点。子空间方法以其描述
无线传感器网络(Wireless Sensor Networks,WSN)路由选择方法是无线传感器网络研究中的关键技术。无线传感器网络路由选择方法是指无线网中信息传递时,采用适当的路由协议后
随着计算机技术的飞速发展,计算机的研究领域也向着越来越多的方面扩展。计算机仿真技术作为当前研究的热点,也受到了越来越高的关注。仿真的数据与计算机动画技术相结合,形
随着网络应用的普及化,网络信息量飞速的增长。因此,人们如何在海量的数据中获取有用的知识变得越来越重要。通过长时间的研究与探索,人们提出了数据挖掘技术,该技术是一门多
分布式系统以其高性能、高可靠性和高扩展性的优势,逐渐成为存储海量数据的首选。在分布式文件系统中,数据主要分为文件数据信息和元数据信息,其中元数据只占数据总量的10%左
随着网络和多媒体技术的发展,包括图像、音频和视频在内的越来越多的媒体文件转化成了数字形式,并广泛的分布在网络上。因此,知识产权的保护问题就成为了如今的关键问题。数