交互式动态影响图的建模及优化算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:lrg123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Agent技术在工业、交通、国防、军事、商务等领域日益广泛的应用和深入的发展,基于单Agent和多Agent的决策问题日益复杂多样,一系列复杂的大规模动态决策问题日益突出,因此,迫切需要一种更加有效解决多Agent决策问题的理论、方法和模型,以期提高Agent决策的智能水平和决策响应速度。   影响图(IDs)方法是一种利用有向图构造决策问题的概率模型和数量计算框架的统计决策技术。其后产生的动态影响图(DIDs)技术是在动态贝叶斯网络(DBNs)和影响图的基础上提出一种模型,它可以用来建模不确定环境下的Agent动态决策问题,以降低动态决策问题的复杂性。目前国际上的新课题与新挑战是交互式动态影响图(I-DIDs),其图形表述和模型求解尤为引人瞩目。目前的I-DIDs主要通过对其他Agent模型的猜测和识别来推断其可能的决策,这存在着主观性和不确定性,从而导致模型效用降低,求解困难,并局限于解决2个Agent的决策问题。   本文在前期工作的基础上,应用部分可观测马尔可夫决策过程性质、最大奖励期望值原理和行为等价原理(BE),提出新的模型求解方法,降低计算难度,确保模型解的最优性;根据概率图模型理论、贝叶斯参数学习方法等尝试面向多个Agent进行建模和模型求解;在一般典型问题(譬如多Agent老虎问题和多AgentUAV问题)上对上述新方法进行验证。主要研究内容有:   (1)提出利用部分策略识别行为等价模型的方法   提出一种用于识别Agent模型是否行为等价(精确或近似)的新方法。在多Agent环境中,无论决策还是博弈都必须考虑其他Agent的行为模型以预测他们的动作。一种用于降低其他Agent行为模型空间复杂度的方法是组合行为等价的模型,判定模型行为等价需要求解模型并比较整个策略树。由于策略树随时间推移指数增长,整个策略树的比较计算量很大,新方法对部分决策树进行比较,并确定策略树叶子节点信度更新后的距离不大,通过交互动态影响图(I-DIDs)来检查和评价方法的性能。   (2)提出利用增量式策略识别行为等价模型的方法   提出用部分策略树聚类近似行为等价模型的改进方法,允许部分策略树中分支对比在没有到达需考虑的分支最大长度时中止,这样每个分支中止的长度不同,因而可能产生一个不对称的部分策略树以聚类更多的近似行为等价模型。新方法可以节省更多的存储空间,可以解决更大时间片的多Agent问题域。   (3)多Agent交互式动态影响图的建模与求解   在交互动态影响图中,决策Agent常常需要求解其他Agent的行为模型以预测他们的行为,但是目前考虑的其他Agent只有一个,这显然不能满足大规模复杂问题的决策需求。本文将需考虑的其他Agent推广到多个,研究他们之间的关系,建立面向多Agent的交互式动态影响图模型(I-MADIDs),并探讨了如果两个非建模Agent之间存在稳定关系时,如何简化I-MADIDs模型。在求解方面,面向多Agent的I-MADIDs的求解难度随着其他Agent数目的增加指数增长,且原有的行为等价算法不能普遍的简单应用。本文将原有的DMU行为等价方法应用于I-MADIDs,并提出基于贝叶斯网参数学习的PL求解算法和二者结合的DL方法。实验证明三种方法都可以有效降低模型求解的难度,其中DL方法更加节省求解时间。   本文是智能Agent决策理论和决策模型领域的论文。通过本文的研究,将为实时动态决策问题的建模和求解打下更为坚实的基础,对决策支持系统、多Agent模型、不确定决策分析等领域也有较高的学术价值和广泛的应用前景,并可用于解决复杂的多Agent决策问题。
其他文献
期刊
尚书和珅与侍郎纪晓岚在花园饮酒。突然有一条狗从此经过,由于和珅妒忌纪晓岚的才能,便指着狗问道:“是狼是狗?”纪晓岚则从容不迫地答道:“尾垂为狼,上竖是狗。”(他们的话各有一定的深意:“是狼”即“侍郎”,“上竖”即“尚书”,和珅骂纪晓岚是狗,纪晓岚针锋相对,反骂和珅是狗,问得巧妙,答得绝妙)  李雪健在《焦裕禄》中主演焦裕禄,同时获得“金鸡奖”和“百花奖”两个大奖。他在致答谢词时没有用别人常说的套话
期刊
期刊
在开展先进性教育活动中,必须牢牢把握服务人民群众这个最根本的目标,真正使党员全心全意为人民服务的宗旨观念进一步增强,作风进一步改进,组织群众、宣传群众、教育群众、服
期刊
政府引导基金作为一种政府出资,促进经济结构调整、创新财政资金对产业发展的支持方式,逐渐被各级政府所推广采用.但是,由于政府引导基金运作具有较强的探索性,管理决策流程
随着科学技术的发展与进步,多个体系统的研究也得到了迅速的发展,而一致性问题又是多个体系统研究中的一个十分重要的课题。本文通过一种新的方法——边拉普拉斯方法研究了一
近年来超声检测技术凭借其穿透能力大、设备轻便、操作安全被广泛的应用于各个领域。超声检测技术中最常用的方法是脉冲回波法,主要原理是通过金属内部反射回来的脉冲波来判
法国于2019年颁布了数字服务税(简称DST),英国、西班牙、意大利和其他国家也正在制定类似的法律.DST可以看作是一种针对地域性特殊平台租的税,可以说它解决了国际税收中真正
Net Micro Framework是微软基于.Net平台设计的新型嵌入式操作系统,以下简称MF,它主要是针对硬件资源有限的设备进行设计的,目标是使得C#托管程序运行在资源受限的设备上面。它的