论文部分内容阅读
多Agent系统中,Agent之间的协调关系是影响多Agent智能的一个重要方面,协调的目的在于通过信息共享和通信交互,对任务目标、行为动作进行合理安排,以最大限度的发挥多Agent的整体性能。在众多解决多Agent系统协调问题的方法中,智能规划是解决多Agent系统协调问题中的一种有效方法,而马尔可夫决策过程是解决智能体规划问题的一种有效理论模型,它的基本思想是:通过Agent与周围环境的交互反馈来感知环境的状态并不断修正自己的行为,以寻求解决问题的最优或次优策略。本文以马尔可夫决策模型及多Agent系统下的部分可观察马尔可夫决策模型为理论基础,研究了多Agent系统的两类协调问题:任务协调和行为协调,这里的任务协调具体是指动态任务分配问题,主要的研究内容包括以下几个方面。首先,对集中式的动态任务分配问题,根据分配任务的不确定性,系统收益的最大化需求以及分配过程序贯决策特征,利用马尔可夫决策模型进行了分析建模,赋予抽象的模型要素以问题相关的形式化描述,并在一定的前提条件下证明了最优分配策略的存在性。对模型的求解过程综合了值迭代和策略迭代的方法,实验结果表明,该方法在保证得到最优或次优策略的同时减少了迭代的次数,提高了收敛速度。其次,对动态任务分配中的再分配问题,通过分析再分配任务产生的原因,对初始分配策略进行了一定的调整,使得因各种原因而剩余的任务能够继续参与到动态分配的任务队列中,直到所有的任务最终都能得到合理的解决,加强了模型的健壮性。此外,对多Agent系统中Agent之间的行为协调问题,针对环境部分可观察性、需记忆的历史信息量大、通信资源非常有限的特点、提出了一种基于规划融合的行为协调机制,在该机制中,通过等价性定义和历史的可合并定理限制了历史信息的规模,采用对可能的冲突检测和延迟通信的方法合理的利用有限资源来提高系统收益和协调效率。通过实验,表明了此机制能够有效的提高利用历史信息进行决策的系统收益,而且在一定冲突度下能够利用有限通信资源提高协调效率和能力。