动态多Agent决策问题建模与求解算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zhuzhuzhuxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动态不确定环境下的多Agent决策问题,因其更加贴近现实世界,具有更高的实用价值,而成为人工智能领域研究的重点和热点,且有着广泛的应用前景。但是,多Agent决策面临巨大的物理环境状态空间的不确定性、其他Agent决镖的不确定性和多样性等问题,建立行之有效的决策模型是解决问题的关键。交互式动态影响图(I-DID)模型凭借其高效的图形表达结构,突破传统模型表达和求解复杂度的瓶颈,已经成为解决多Agent决策问题的一个有效工具。   I-DID作为交互式部分可观察马尔可夫决策过程(I-POMDP)的图模型,在I-POMDP理论下得到了严密的数学论证,但I-DID状态空间太大,候选模型数量随时间片增加呈指数级增长等因素使求解面临计算量的困扰。此外,I-DID缺乏对Agent通信能力的建模,降低了模型描述问题的能力,导致应用的局限性。寻求新的算法,以高效地求解I-DID模型,并建立包含通信行为的新模型是急需解决的问题。本文在I-DID的基础上展开工作,主要涉及以下几方面的内容:   (1)系统地分析了与Agent决策相关的概率图模型,包括:贝叶斯网(BNs)、影响图(ID)、动态影响图(DID)、交互式影响图(I-ID)、交互式动态影响图(I-DID),其中重点研究了与本文密切相关的I-DID模型,并分析其求解困难的原因。   (2)提出基于分段行为等价的交互式动态影响图的改进算法。基于行为等价原理对候选模型聚类,是简化计算的有效方法。但是,形成行为等价类的过程需获得候选模型在所有时间片上的解,计算量大、时间消耗非常高。考虑到基于行为等价原理对候选模型聚类,在最后一个时间片上保留的模型个数不大于动作集合中的元素个数。利用这一点,在已有的精确行为等价算法的基础上提出分段处理I-DID模型的改进算法。通过与精确行为等价算法的实验结果对比分析,证明分段行为等价算法能够缓解候选模型空间不断增长的趋势。   (3)提出基于信度-行为图的交互式动态影响图的近似算法。采用分段处理I-DID模型的方法,当乃(每一子段包含的时间片长度)很小时,得不到令人满意的结果;当Tt很大时算法优势不明显。因此提出基于信度.行为图的近似算法:首先,把信度空间距离相近的模型聚为一类,对候选模型进行一次压缩。然后,采用差别模型更新的操作对候选模型进行二次压缩。多Agent老虎问题和多Agent机器维修问题上的仿真结果验证了该算法的有效性。   (4)建立通信交互式动态影响图(IDID-Corn)模型。在I-DID模型的基础上引人通信行为,建立包含显式通信动作的IDID.Com模型,使高层Agent共享其观察信息,即当位于,层的Agenti选择通信动作并传递其当前时间片的观察信息时,位于l-1层上的Agent j可准确接收该信息,同时,Agenti和j能够利用该信息更新其信度状态。在IDID-Com中,区别对待通信动作和通常意义上的常规动作,使每一时间片上的决策都包含通信子阶段与常规动作子阶段,在常规动作之前先决策是否通信。分析通信前后Agent信度状态的变化,及其对常规动作选择的影响,并通过实例验证了IDID-Com模型的正确性和合理性。
其他文献
随着电网互联程度的增加和电力市场的出现,电力系统的运行环境变得更加复杂,其安全稳定运行受到越来越大的挑战。如何利用先进控制手段提高电力系统在紧急状态下的安全稳定性
中央暖通空调系统用于满足生产或生活的需要。由于生产或者生活中时时刻刻都有不同的发热源及冷却系统使温度维持在一定的范围之内,暖通空调系统的电子智能自动控制系统的设计
随着海洋中心平台构造规模不断扩大,各种新型仪器仪表等检测设备越来越多,传统的海洋中心平台测控系统已不能满足仪表信号采集功能要求;系统集中式布线不但成本高,而且会导致
自从上个世纪六十年代,设施选址问题的研究在运筹学中已经占据重要位置.无容量约束设施选址问题是最经典的设施选址问题,己证明它是NP-难解问题.在本论文中,我们从近似算法角度研
人类的头骨,骨骼等发掘到的文物是人类重要的历史遗产。人类学与法医学专家可以利用发掘得到的头骨来还原死者生前的面貌。但是,由于自然环境的侵蚀与人为的破坏,这些骨骼模
油气中的链烷烃、烯烃等是重要的化工产品和有机原料,工业应用广泛。而在油气组分分析方面,红外光谱分析技术因其分析速度快、在线、无损、无污染等优点已普及于石油化工生产
在国内外钻井行业,随钻测量仪器的应用越来越多,因此井下仪器设备和系统承担着日趋复杂艰巨的工作,导致井下仪器在工作过程中的故障频率较高,给实际的钻井生产带来不必要的损
流化催化裂化过程作为重要的石油化工炼油过程,与其他各类石油工艺相比其总的加工能力不可小觑,基本原理和工艺过程的复杂程度在其他油品转化工艺中也是很少见的,所以对其进行详细的模拟优化研究是十分必要的。经过近一个世纪的发展,该复杂过程已有较为完整的装置技术及经验,但依旧需继续提高其精确性与准确度。本文旨在对相关方向进行系统的综述与概括的基础上,对流化催化裂化工艺中最关键的反应-再生系统进行建模优化与稳态
计算流体力学(简称CFD)是通过计算机进行数值模拟,分析流体流动和传质传热等物理现象的技术。它兼有理论性和实践性双重特点:一方面,通过CFD模拟可显示流体流动过程中发生的现象,
小区冬季供暖中,通过远程采集各住户室内温度来检测供暖质量,为整个热网调度提供精确的依据,在很大程度上减少了由于室内温度过高而造成的能源浪费,及供热不均匀的问题。   温