不确定环境下Agent长期联盟形成问题研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:limi330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
联盟形成问题是多agent领域内的重要课题,当前对其的研究多集中于确定领域,即假设环境是完全信息的,但不确定性是多agent系统的固有属性,能不能有效地解决系统中存在的不确定性,对于联盟技术能否有效的应用到实际场景中去起着重要作用。基于此,本文主要围绕形成联盟过程中可能存在的不确定性及信息的未知性展开研究,对经典的基于联盟形成的任务分配模型进行了相应的扩展。具体的讲,在不确定环境下,经典的基于联盟形成的任务分配模型存在如下几个问题:首先,其没有考虑形成联盟过程中可能存在的agent能力的不确定性及信息的未知性,而能否有效的解决这些不确定性,对形成的联盟的效果有着决定性的影响。其次,在经典模型中,主要的优化目标是最大化当前收益,而在不确定环境下,若仅仅最大化当前收益,系统得到的最优收益实际上很有可能并不是真正的最优收益。最后,在经典的模型中,并没有考虑可能有agent会离开或进入系统的情况,这是很有可能发生的,特别是当多agent系统的规模较大时。针对经典模型中存在的上述问题,本文对该模型分别进行了扩展。具体的讲,本文的主要工作有:1.将经典的基于联盟的任务分配问题扩展到不确定性环境中,使用多元正态分布来建模agent的能力,并通过正态逆威沙特分布建模系统中存在的不确定性,在此基础上提出了一种基于贝叶斯方法的任务分配模型。2.将经典的基于联盟的任务分配问题进一步扩展到长期收益的情形,为了解决模型中存在的exploration-exploitation困境,采用了信息价值的概念,在此基础上,提出了一种基于贝叶斯强化学习的长期联盟形成算法,实验结果表明该方法的有效性。3.将经典的基于联盟的任务分配问题进一步扩展到动态环境中。为了解决模型中存在的agent可能离开或加入的情况,将上面提出的基于贝叶斯强化学习的长期联盟形成算法做了进一步的扩展。4.提出了一种基于权重的联盟形成算法,但该算法并不能总是保证找到最优联盟,因此又提出了一种基于权重的联盟形成算法,但决定何时用哪种算法是不容易的,因此,提出了相似度的概念,并使用强化学习算法来确定最优相似度阈值,实验结果验证了整个算法的有效性。
其他文献
地震解释是将地震信息转换为地质信息的过程,是地震勘探中的一个重要环节,地震解释的结果直接影响到地震勘探的效益。由于地震勘探技术的不断进步,地震数据的数据量不断增加,地震