论文部分内容阅读
随着Agent技术在工业、交通、国防、军事、商务等领域日益广泛的应用和深入的发展,基于单Agent和多Agent的决策问题日益复杂多样,一系列复杂的大规模动态决策问题日益突出,因此,迫切需要一种更加有效解决多Agent决策问题的理论、方法和模型,以期提高Agent决策的智能水平和决策响应速度。
影响图(IDs)方法是一种利用有向图构造决策问题的概率模型和数量计算框架的统计决策技术。其后产生的动态影响图(DIDs)技术是在动态贝叶斯网络(DBNs)和影响图的基础上提出一种模型,它可以用来建模不确定环境下的Agent动态决策问题,以降低动态决策问题的复杂性。目前国际上的新课题与新挑战是交互式动态影响图(I-DIDs),其图形表述和模型求解尤为引人瞩目。目前的I-DIDs主要通过对其他Agent模型的猜测和识别来推断其可能的决策,这存在着主观性和不确定性,从而导致模型效用降低,求解困难,并局限于解决2个Agent的决策问题。
本文在前期工作的基础上,应用部分可观测马尔可夫决策过程性质、最大奖励期望值原理和行为等价原理(BE),提出新的模型求解方法,降低计算难度,确保模型解的最优性;根据概率图模型理论、贝叶斯参数学习方法等尝试面向多个Agent进行建模和模型求解;在一般典型问题(譬如多Agent老虎问题和多AgentUAV问题)上对上述新方法进行验证。主要研究内容有:
(1)提出利用部分策略识别行为等价模型的方法
提出一种用于识别Agent模型是否行为等价(精确或近似)的新方法。在多Agent环境中,无论决策还是博弈都必须考虑其他Agent的行为模型以预测他们的动作。一种用于降低其他Agent行为模型空间复杂度的方法是组合行为等价的模型,判定模型行为等价需要求解模型并比较整个策略树。由于策略树随时间推移指数增长,整个策略树的比较计算量很大,新方法对部分决策树进行比较,并确定策略树叶子节点信度更新后的距离不大,通过交互动态影响图(I-DIDs)来检查和评价方法的性能。
(2)提出利用增量式策略识别行为等价模型的方法
提出用部分策略树聚类近似行为等价模型的改进方法,允许部分策略树中分支对比在没有到达需考虑的分支最大长度时中止,这样每个分支中止的长度不同,因而可能产生一个不对称的部分策略树以聚类更多的近似行为等价模型。新方法可以节省更多的存储空间,可以解决更大时间片的多Agent问题域。
(3)多Agent交互式动态影响图的建模与求解
在交互动态影响图中,决策Agent常常需要求解其他Agent的行为模型以预测他们的行为,但是目前考虑的其他Agent只有一个,这显然不能满足大规模复杂问题的决策需求。本文将需考虑的其他Agent推广到多个,研究他们之间的关系,建立面向多Agent的交互式动态影响图模型(I-MADIDs),并探讨了如果两个非建模Agent之间存在稳定关系时,如何简化I-MADIDs模型。在求解方面,面向多Agent的I-MADIDs的求解难度随着其他Agent数目的增加指数增长,且原有的行为等价算法不能普遍的简单应用。本文将原有的DMU行为等价方法应用于I-MADIDs,并提出基于贝叶斯网参数学习的PL求解算法和二者结合的DL方法。实验证明三种方法都可以有效降低模型求解的难度,其中DL方法更加节省求解时间。
本文是智能Agent决策理论和决策模型领域的论文。通过本文的研究,将为实时动态决策问题的建模和求解打下更为坚实的基础,对决策支持系统、多Agent模型、不确定决策分析等领域也有较高的学术价值和广泛的应用前景,并可用于解决复杂的多Agent决策问题。