在多Agent环境中求帕累托效率解的方法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:cqwsxwsx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多Agent系统(MAS)及其相关技术近年来受到越来越多的研究者的关注。它不仅已经被广泛运用到了Internet、办公自动化、冲突协调、决策支持、开放式信息系统等众多领域。并且它还是博弈论和人工智能交叉领域研究的热门问题之一。在一个竞争的环境中,一个令人满意的多Agent学习算法应该至少是理性的,它应该能保证自己的安全收益。在一个可合作的环境中,一个令人满意的多Agent学习算法应该是满足合作性的,在与公正对手博弈时,应尽可能的达到双赢的局面。目前,有很多算法都可以满足理性,而另一些算法能够在与公正对手的博弈中取得高额回报,但是却不能二者兼得。在本文中,我们详细分析了MAS中的学习环境理论模型,简要介绍了多Agent环境中学习算法应具备的属性,并分析了当前一些学者提出的算法。然后分析了Q-学习算法,WoLF原理,并介绍了Robert Axelrod实验。根据以上三个方面,我们分析了一个优秀的算法应能从历史博弈中进行学习,并且应该兼顾理性与合作性。在此基础上我们提出了PESCO算法,它能从以往的收益和对手的动作中学习到对手的特点,并且具备善意的、宽容的、强硬的特点。它在自博弈时满足自兼容性,它对非合作对手满足理性,保证安全收益,对合作对手,寻求帕累托效率解,达到双赢局面。我们以可合作的供零博弈、Stackelberg博弈和非合作的猜硬币博弈为背景,通过一系列的实验来验证PESCO算法的有效性,详细描述了实验过程的每一个细节,说明了该算法无论在可合作的博弈中,还是非合作的博弈中,无论对手是合作的,还是非合作的,其效果都是令人满意的。
其他文献
物理是一门以实验为基础的学科,实验教学的质量决定了物理教学的效果。但在传统物理课堂的演示实验中,常常因为实验仪器有限、周围温度及湿度等环境因素的影响、学生操作不当
随着科学技术的不断进步,人们对生活品质的要求已经越来越高。以前我们通过声音或者文字进行交流就很知足。但是现在,人们已经远远不能满足于此。人们需要的是“面对面”的交
随着多媒体技术的快速发展与互联网技术的日益普及,我们拥有越来越多的数字图像数据,图像数据的种类和数量也在与日俱增,无论是军用还是民用设备,每天都会产生相当数量的数字
随着多层计算机断层扫描(CT)和快速扫描时代的到来,CT已经成为脑部成像的重要工具,并已经成为检查脑癌,中风,颅内出血,创伤和退化疾病等的主要工具。通过对CT影像的诊断和分
Deep Web中包含丰富的信息,这些信息结构性好、价值高、面向特定的领域。访问Web数据库逐渐成为人们获取信息的主要手段,因此如何以自动的方式完成对Web数据库中信息的有效利用
随着嵌入式实时操作系统的发展,各种架构的嵌入式操作作系统越来越广泛的被应用于各种各样的场合,从航天航空、军工企业到人们日常生活所用的智能家电,嵌入式实时系统无处不
Web服务技术作为一种新型的面向服务的分布式计算模式,为软件系统提供了公共的编程接口与统一的互操作协议,屏蔽了操作系统、编程语言、底层硬件结构的多样性,大大推进了软件
随着网络的发展,网络与计算机越来越广泛地应用于现今社会。电子银行、电子商务等网络服务正在悄悄地进入人们的生活。随之而来的各种网络攻击在不断地增加,人们也渐渐地认识
部件化物体分割是面向深度图像建模与识别的关键步骤。在多物体场景中,物体之间因相互遮挡而产生采样数据部分缺失的现象。本文研究并设计了超二次曲面边缘对缺失部分数据的
近年来,越来越多大容量、高质量的流媒体文件出现在互联网上。这种流媒体文件在网络中传输不仅传输时间长,而且代理缓存难度大。于是研究人员提出了各种改进代理缓存结构的思