论文部分内容阅读
动态不确定环境下的多Agent决策问题,因其更加贴近现实世界,具有更高的实用价值,而成为人工智能领域研究的重点和热点,且有着广泛的应用前景。但是,多Agent决策面临巨大的物理环境状态空间的不确定性、其他Agent决镖的不确定性和多样性等问题,建立行之有效的决策模型是解决问题的关键。交互式动态影响图(I-DID)模型凭借其高效的图形表达结构,突破传统模型表达和求解复杂度的瓶颈,已经成为解决多Agent决策问题的一个有效工具。
I-DID作为交互式部分可观察马尔可夫决策过程(I-POMDP)的图模型,在I-POMDP理论下得到了严密的数学论证,但I-DID状态空间太大,候选模型数量随时间片增加呈指数级增长等因素使求解面临计算量的困扰。此外,I-DID缺乏对Agent通信能力的建模,降低了模型描述问题的能力,导致应用的局限性。寻求新的算法,以高效地求解I-DID模型,并建立包含通信行为的新模型是急需解决的问题。本文在I-DID的基础上展开工作,主要涉及以下几方面的内容:
(1)系统地分析了与Agent决策相关的概率图模型,包括:贝叶斯网(BNs)、影响图(ID)、动态影响图(DID)、交互式影响图(I-ID)、交互式动态影响图(I-DID),其中重点研究了与本文密切相关的I-DID模型,并分析其求解困难的原因。
(2)提出基于分段行为等价的交互式动态影响图的改进算法。基于行为等价原理对候选模型聚类,是简化计算的有效方法。但是,形成行为等价类的过程需获得候选模型在所有时间片上的解,计算量大、时间消耗非常高。考虑到基于行为等价原理对候选模型聚类,在最后一个时间片上保留的模型个数不大于动作集合中的元素个数。利用这一点,在已有的精确行为等价算法的基础上提出分段处理I-DID模型的改进算法。通过与精确行为等价算法的实验结果对比分析,证明分段行为等价算法能够缓解候选模型空间不断增长的趋势。
(3)提出基于信度-行为图的交互式动态影响图的近似算法。采用分段处理I-DID模型的方法,当乃(每一子段包含的时间片长度)很小时,得不到令人满意的结果;当Tt很大时算法优势不明显。因此提出基于信度.行为图的近似算法:首先,把信度空间距离相近的模型聚为一类,对候选模型进行一次压缩。然后,采用差别模型更新的操作对候选模型进行二次压缩。多Agent老虎问题和多Agent机器维修问题上的仿真结果验证了该算法的有效性。
(4)建立通信交互式动态影响图(IDID-Corn)模型。在I-DID模型的基础上引人通信行为,建立包含显式通信动作的IDID.Com模型,使高层Agent共享其观察信息,即当位于,层的Agenti选择通信动作并传递其当前时间片的观察信息时,位于l-1层上的Agent j可准确接收该信息,同时,Agenti和j能够利用该信息更新其信度状态。在IDID-Com中,区别对待通信动作和通常意义上的常规动作,使每一时间片上的决策都包含通信子阶段与常规动作子阶段,在常规动作之前先决策是否通信。分析通信前后Agent信度状态的变化,及其对常规动作选择的影响,并通过实例验证了IDID-Com模型的正确性和合理性。