联合博弈框架下的多Agent强化学习算法研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:wcf333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体系统是一个复杂的动态系统,系统中问题求解空间巨大,是人工智能领域研究的一个热点问题。智能体系统的一个主要特征是能够适应未知环境,其中学习能力是智能体系统的关键技术之一。针对单Agent系统对环境仅部分感知、搜索空间巨大、学习效率不高等缺点,本文在综合多种学习算法的基础上作了以下工作:首先引入了多智能体学习的一些理论知识,对强化学习和多Agent强化学习的研究现状和未来发展方向进行了阐述,介绍了目前常用的强化学习基本原理和使用的基本模型,探讨了强化学习中几种经典算法,在实验分析的基础上讨论了各参数对经典的强化学习算法的影响。在对自治协商模型的结构、原理,以及协商僵局的成因、对协商效用影响进行分析的基础上,利用基于博弈论的提议策略改进了原有的双边-多议题协商模型,采用Q学习算法对双边多议题协商过程中出现的僵局进行消解,支持多Agent系统在协商过程中的学习。实验表明,所建模型是可行和有效的。针对多Agent联合学习问题,提出了基于联合博弈的多Agent强化学习算法。该算法以成员联合博弈为理论框架,用长期回报矩阵对多个阶段的结果进行评估,使得联合行为的好坏程度得以准确表示;通过对多最优均衡解问题的描述,给出了基于联合博弈的多Agent学习算法,保证算法能够收敛到最优均衡解。最后用实际调度问题对算法进行了验证,并与Q-学习算法的实验结果进行了比较。
其他文献
随着移动终端的广泛普及,移动应用程序为用户提供着便捷的服务,目前几乎覆盖了人们日常生活的方方面面。与此同时,移动应用携带了大量用户数据信息,既可以对数据进行快速的计算处
近年来,系统融合方法逐渐在机器翻译领域受到重视。系统融合可以综合利用不同翻译系统的优点,缓解数据稀疏,选择最佳译文,从而提高机器翻译效果。维吾尔语和汉语间的机器翻译平行
随着无线通信技术和传感器技术的飞速发展以及国家对科技创新的日益重视,物联网(Internet of things)技术已成为当前的研究热点。传感网是无线传感器网络(Wirelesssensor netw
随着Internet技术的不断发展和人们对地理信息系统(GIS)需求的不断增加,WebGIS已成为了当今GIS的研究热点和方向之一。WebGIS,即万维网地理信息系统,是基于Internet上的地理信息
互联网上的网络应用承载着信息社会最重要的数据,保证这些应用的稳定高效运行已经显得越来越重要,也由此产生对网络性能测量和监控非常迫切的需要。本文立足于当前分布式网络
串联质谱技术是蛋白质组学研究中的关键技术,也是大规模蛋白质序列和修饰鉴定的主要方法。常规鉴定方法(如序列库搜索)对串联质谱谱图的鉴定率还比较低,通常不到30%,而提高谱图的
随着IP网络的飞速发展,互联网的规模越来越庞大,结构也日益复杂,同时,网络上的应用越来越趋于多样化,大量的新型应用给网络环境带来了巨大冲击,网络监测的重要性在这样的背景下日益
无线传感器网络是一类新兴的网络,它主要通过分布在区域内的传感器节点来感知收集附近的相关数据,并将数据传输到汇聚节点。收集到的数据经过处理之后,最终传输给终端用户。
移动性管理是无线通信网络中实现用户快速接入网络并在通信过程中在不同小区间平滑切换的重要保证。随着以OFDM为核心的高速高带宽移动通信技术的发展,蜂窝小区尺寸越来越小,用
社会情感优化算法借鉴了社会学、社会心理学、组织行为学等有关人类群体的形成、进化及决策等方面的研究成果,考虑了情绪在人类决策行为中的作用以及外界信息对人类情绪的影