基于决策理论的多智能体系统规划问题研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:hondaboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不确定性环境下的决策和规划是人工智能的基本问题之一。决策论为这类问题的最优化求解提供了标准的理论框架。近年来,单智能体的决策理论取得了长足的发展,经典的MDP和POMDP算法已经能求解较大规模的问题。但多智能体的分布式决策却依然处在研究的初级阶段,通常只能求解极小规模的问题。作为马尔科夫决策理论在多智能体系统上的扩展,DEC-POMDP模型涵盖了大多数的多智能体合作问题,但同时也具有极高的问题复杂度(NEXP难)。因为在多智能体系统中,每个智能体不仅要考虑环境的变化还需要关注其他智能体的可能行为。DEC-POMDP的复杂度具体表现在求解上就是问题具有极大的策略空间。如何对巨大的策略空间进行表示和推理并从中找出最优的策略是DEC-POMDP司题求解的关键。受限于问题复杂度,精确算法当前只能求解很小规模的问题。因此,本文研究的重点是为一般性的DEC-POMDP问题设计高效的近似算法。从求解方式上看,大体可分为在线和离线算法两类。本文在这两类算法上均有相应的工作,同时还求解了一类更具挑战的无模型规划问题。在线规划算法在智能体与环境交互的过程中进行规划,因此只需要考虑智能体当前遇到的情况。由于每次执行过程中,智能体实际遇到的情况只是各种可能中很小的一部分,因此在大规模问题求解上,在线算法更具有优势。但在线算法本身也有需要解决的难题。因为智能体需要实时的对环境做出反应,因此每次可用于规划的时间非常的有限。在DEC-POMDP问题中,每个智能体获得的是各自不同的局部观察,所以需要一个分布式的计算框架来保证智能体行为之间的协调。为了与其他智能体进行合作,每个智能体必须考虑其他智能体所有可能拥有的信息,而这些信息会随时间的增加指数式的暴涨。同时由于带宽、环境和计算资源的限制,智能体之间的通讯往往是受限的。本文提出的通汛受限的多智能体在线规划算法MAOP-COMM较为系统的解决了这些问题。离线规划算法在智能体与环境进行交互前,通过给定的模型计算出完整的策略。其主要优势在于有充足的时间来进行规划,而且不需要考虑在线的分布式协调,只要求计算出的策略能被每个智能体根据各自的观察分布式的执行。当前,最好的离线规划算法采用的是将动态规划和启发式搜索相结合的办法来构建一套完整的策略。对于大规模问题,其主要瓶颈在于每一步迭代都会产生极其多的子策略。这些子策略会快速的耗尽所有的存储空间和导致运算严重超时。为了解决这一问题,本文在前人工作的基础上提出了PBPG和TBDP这两个算法。PBPG算法的主要创新点是彻底的改变了之前先枚举再选择的策略生成模式,通过构建最优化的模型为每个信念点直接生成所需的策略。TBDP算法主要针对的是大状态DEC-POMDP问题。其主要的创新点是使用基于测试的方法只为可达的状态和需要使用到的策略计算值函数。无论是离线算法还是在线算法,在问题求解的时候都需要用到完整的DEC-POMDP模型。但在大规模的现实问题中,完整的DEC-POMDP模型并不容易获得。因此本文还提出了基于展开式采样的蒙特卡罗规划算法DecRSPI。该算法仪需要能用于采样的环境或者仿真器就能直接计算策略,而无需事先建立完整的DEC-POMDP模型。本文对多智能体系统规划研究的贡献主要有四点:(1)较为系统的研究了多智能体在线规划问题,提出了能够保证智能体之间协调决策的MAOP-COMM在线规划算法。该算法使用了快速策略搜索用于满足在线规划的时间限制,同时对指数式增长的历史信息进行压缩,在使用有限内存的情况下尽可能的保留了最有价值的决策信息,最后算法还对压缩后信念与环境的一致性进行检测,并在此基础上提出了新的通讯策略,在通讯受限的情况下有效的使用了通讯。实验结果印证了MAOP-COMM算法在多智能体在线规划上的诸多优势。(2)较为系统的研究了多智能体离线规划的策略生成问题,提出了具有线性复杂度的信念点策略生成算法PBPG。该算法彻底的改变了以往算法在策略生成上采用的先枚举再选择的模式,将策略生成问题建模为选择最优子映射的数值优化问题,并在此基础上提出了求解该优化问题的快速近似算法。在实验结果中,PBPG算法在运行时间上比之前的算法提高了一个数量级,并能够保留更多的子策略,随着子策略数的增加能够对大部分的测试问题进行近似最优的求解。(3)较为系统的研究了多智能体离线规划的策略评价问题,提出了基于测试反馈的TBDP算法。该算法能充分的利用问题本身具有的局部状态可达的特点,使用测试反馈的方法只针对可达状态进行策略评价,从而提高策略评价的效率。同时算法还引入了一种新的策略表示方法,在加速策略生产的同时,进一步界定需要评价的策略。从实现的角度,算法具有策略值缓存功能同时支持分布式并行策略评价,从而能够利用多处理系统的计算资源。从实验结果上,TBDP算法可以有效的求解上万个状态的多智能体规划问题。(4)引入并研究了多智能体系统的无模型规划问题,提出了基于蒙特卡罗方法的展开式采样策略迭代算法DecRSPI。该算法能够只通过与环境的交换信息计算出分布式的策略,而无需事先建立问题的完整模型。同时该算法具有相对于智能体个数的线性时间和空间的算法复杂度,这使得算法能够求解智能体个数比以往算法所能求解的个数多得多的多智能体规划问题。在实验结果中,DecRSPI算法有效的求解了超过二十个智能体的多智能体系统规划问题,比以往的算法提高了一个数量级。
其他文献
摘要:本文针对非人力资源管理专业学生所开设的《人力资源管理》课程在教学内容及教学方法上进行探讨。  关键词:人力资源管理;教学内容;教学方法  中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2015)29-0154-02  目前,很多高校针对工商管理、行政管理等非人力资源管理专业学生开设了《人力资源管理》课程。不管什么专业的学生,其参加工作之后,无论是成为管理者还是被管理
任务空间是机械系统的一种典型位形空间,在几何上对应了李群SE(3)。任务空间的控制问题涵盖了丰富的研究对象,但由于任务空间复杂的空间结构,任务空间控制的相关理论研究进展
智能交通系统(Intelligent Transport System,ITS)可以显著提高运输效率,降低运输成本,减少能耗与排放,增强车辆运行安全性能,是未来交通运输方式的发展方向。智能车辆(Intel
以习近平同志为核心的党中央特别重视健康中国的建设,习总书记提出:没有全民健康,就没有全面小康;党在建设与发展的过程中,需要始终将人民对于未来发展的美好向往,作为一切工
广西西南部中趣边境地区现已知有蛇类5科66种,其中黑头海蛇(Hydrophis melanocephalus)为广西蛇类新纪录.腹斑水蛇(Enhydris bocourti)在该地区的分布纪录应为可疑记录,需作
<正>“百病生于气”出自《素问·举痛论》, 《内经》云:“怒则气上,喜则气缓,悲则气消,恐则气下,寒则气收,炅则气泄,惊则气乱,劳则气耗,思则气结”,其根本在于强调气在任何疾
会议
支持向量机(Support Vector Machines, SVMs)是基于统计学习理论以及结构风险最小化原则的新一代通用机器学习方法。它在解决小样本、非线性及高维模式分类及函数回归问题中
在中央强调高校要加强意识形态工作的新形势下,独立学院要通过创新的方式来加强基层党建工作,从党建观念上进行创新,通过工作机制创新、教育模式创新、服务功能创新等等。对于系
电液伺服系统具有响应快、精度高、传递功率大的特点,广泛应用于国防工业及国民经济各个领域,电液伺服系统的协同控制是其中一类重要应用。电液伺服对顶协同控制系统的工作原
身为知识社会,“下一个社会”的深刻内涵在于:知识工作者拥有比经济安全更重要的东西,那就是社会地位。