不确定环境下Agent长期联盟形成问题研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:limi330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
联盟形成问题是多agent领域内的重要课题,当前对其的研究多集中于确定领域,即假设环境是完全信息的,但不确定性是多agent系统的固有属性,能不能有效地解决系统中存在的不确定性,对于联盟技术能否有效的应用到实际场景中去起着重要作用。基于此,本文主要围绕形成联盟过程中可能存在的不确定性及信息的未知性展开研究,对经典的基于联盟形成的任务分配模型进行了相应的扩展。具体的讲,在不确定环境下,经典的基于联盟形成的任务分配模型存在如下几个问题:首先,其没有考虑形成联盟过程中可能存在的agent能力的不确定性及信息的未知性,而能否有效的解决这些不确定性,对形成的联盟的效果有着决定性的影响。其次,在经典模型中,主要的优化目标是最大化当前收益,而在不确定环境下,若仅仅最大化当前收益,系统得到的最优收益实际上很有可能并不是真正的最优收益。最后,在经典的模型中,并没有考虑可能有agent会离开或进入系统的情况,这是很有可能发生的,特别是当多agent系统的规模较大时。针对经典模型中存在的上述问题,本文对该模型分别进行了扩展。具体的讲,本文的主要工作有:1.将经典的基于联盟的任务分配问题扩展到不确定性环境中,使用多元正态分布来建模agent的能力,并通过正态逆威沙特分布建模系统中存在的不确定性,在此基础上提出了一种基于贝叶斯方法的任务分配模型。2.将经典的基于联盟的任务分配问题进一步扩展到长期收益的情形,为了解决模型中存在的exploration-exploitation困境,采用了信息价值的概念,在此基础上,提出了一种基于贝叶斯强化学习的长期联盟形成算法,实验结果表明该方法的有效性。3.将经典的基于联盟的任务分配问题进一步扩展到动态环境中。为了解决模型中存在的agent可能离开或加入的情况,将上面提出的基于贝叶斯强化学习的长期联盟形成算法做了进一步的扩展。4.提出了一种基于权重的联盟形成算法,但该算法并不能总是保证找到最优联盟,因此又提出了一种基于权重的联盟形成算法,但决定何时用哪种算法是不容易的,因此,提出了相似度的概念,并使用强化学习算法来确定最优相似度阈值,实验结果验证了整个算法的有效性。
其他文献
近几十年来,随着国际互联网和万维网的高速发展,互联网上的信息呈指数级增长,用户要从海量信息中查找出自己感兴趣的有用信息越来越难,出现了“信息过载”的现象。如何从这些海量
该文探讨了如何有效地在一个庞大而复杂的系统上进行二次开发的问题,并给出了一套如何有效地将已有系统集成到新系统中的方法和规范步骤.作者并以这种方法和规范步骤作为指导
该文在对敏捷虚拟企业建立过程进行分析的基础上,研究了敏捷虚拟企业建立过程中所遇到的各种决策问题及决策问题的描述、进而提出了基于多主体群体决策支持系统(VO-GDSS)的系
地震解释是将地震信息转换为地质信息的过程,是地震勘探中的一个重要环节,地震解释的结果直接影响到地震勘探的效益。由于地震勘探技术的不断进步,地震数据的数据量不断增加,地震
该文介绍的基于CORBA辅助开发环境是为了解决ORB编程存在的复杂性、以及与青鸟构件组装工具的集成问题.它包括服务器端和客户端辅助开发工具两个部分.该文的工作主要是客户端
该文主要讨论了ARTs-CS的数据操纵和查询优化的原理与实现,并对其并发控制策略进行了理论上的初步探讨.第一章分别介绍了实时数据库、主动数据库、内存数据库和分布时数据库
该文设计了三种不同的求解生产调度问题的进化算法,基于二进制编码方案的简单遗传算法(SGA);基于解的直接编码表示方案,并借用GT活性调度设计杂交和变异算子的遗传算法(GA/GT
目前,计算机辅助医学图像处理与分析技术已被广泛应用,基于机器学习的医学图像分析技术的研究正方兴未艾,并成为研究热点。已有研究表明,在计算机辅助诊断中,应用机器学习技术对医
该文从应用系统开发的方法论和系统资源管理两个角度进行了详细地分析和论述,进行了应用集成系统的研究和开发,提出了面向应用进行系统分解和设计的基本思路,并进行了初步的
该文主要研究了网络安全的关键技术:防火墙技术?工作员首先提出了防火墙技术参考模型,该参考模型的基本构件是认证功能构件、完整性功能构件、访问控制功能构件、审计功能构