联合博弈框架下的多Agent强化学习算法研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户：wcf333

【摘要】

：

多智能体系统是一个复杂的动态系统,系统中问题求解空间巨大,是人工智能领域研究的一个热点问题。智能体系统的一个主要特征是能够适应未知环境,其中学习能力是智能体系统的

【作者】

：

黄付亮

【机构】

：

太原科技大学

【出处】

：

太原科技大学

【发表日期】

：

2011年期

【关键词】

：

多智能体强化学习协作协商联合博弈

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多智能体系统是一个复杂的动态系统,系统中问题求解空间巨大,是人工智能领域研究的一个热点问题。智能体系统的一个主要特征是能够适应未知环境,其中学习能力是智能体系统的关键技术之一。针对单Agent系统对环境仅部分感知、搜索空间巨大、学习效率不高等缺点,本文在综合多种学习算法的基础上作了以下工作:首先引入了多智能体学习的一些理论知识,对强化学习和多Agent强化学习的研究现状和未来发展方向进行了阐述,介绍了目前常用的强化学习基本原理和使用的基本模型,探讨了强化学习中几种经典算法,在实验分析的基础上讨论了各参数对经典的强化学习算法的影响。在对自治协商模型的结构、原理,以及协商僵局的成因、对协商效用影响进行分析的基础上,利用基于博弈论的提议策略改进了原有的双边-多议题协商模型,采用Q学习算法对双边多议题协商过程中出现的僵局进行消解,支持多Agent系统在协商过程中的学习。实验表明,所建模型是可行和有效的。针对多Agent联合学习问题,提出了基于联合博弈的多Agent强化学习算法。该算法以成员联合博弈为理论框架,用长期回报矩阵对多个阶段的结果进行评估,使得联合行为的好坏程度得以准确表示;通过对多最优均衡解问题的描述,给出了基于联合博弈的多Agent学习算法,保证算法能够收敛到最优均衡解。最后用实际调度问题对算法进行了验证,并与Q-学习算法的实验结果进行了比较。

其他文献

面向Android应用隐私泄露检测的污点分析技术研究

随着移动终端的广泛普及，移动应用程序为用户提供着便捷的服务，目前几乎覆盖了人们日常生活的方方面面。与此同时，移动应用携带了大量用户数据信息，既可以对数据进行快速的计算处

学位

Android应用隐私泄露安全检测污点分析

机器翻译中混淆网络融合方法研究

近年来，系统融合方法逐渐在机器翻译领域受到重视。系统融合可以综合利用不同翻译系统的优点，缓解数据稀疏，选择最佳译文，从而提高机器翻译效果。维吾尔语和汉语间的机器翻译平行

学位

机器翻译系统融合词对齐混淆网络解码数据稀疏最小贝叶斯风险

基于移动基站的无线传感网络能量优化方法研究

随着无线通信技术和传感器技术的飞速发展以及国家对科技创新的日益重视，物联网(Internet of things)技术已成为当前的研究热点。传感网是无线传感器网络(Wirelesssensor netw

学位

无线传感器网络能量优化移动基站节点能耗低功耗设计

基于WebGIS的数字城市管理部件在线更新系统的研究

随着Internet技术的不断发展和人们对地理信息系统(GIS)需求的不断增加，WebGIS已成为了当今GIS的研究热点和方向之一。WebGIS，即万维网地理信息系统，是基于Internet上的地理信息

学位

万维网地理信息系统异步刷新机制数字城管部件在线更新

Web Service分布式网络测量监控的研究和实现

互联网上的网络应用承载着信息社会最重要的数据,保证这些应用的稳定高效运行已经显得越来越重要,也由此产生对网络性能测量和监控非常迫切的需要。本文立足于当前分布式网络

学位

Web Service技术分布式网络监控系统网络性能

开放式质谱库搜索引擎的算法设计、软件开发与应用

串联质谱技术是蛋白质组学研究中的关键技术，也是大规模蛋白质序列和修饰鉴定的主要方法。常规鉴定方法(如序列库搜索)对串联质谱谱图的鉴定率还比较低，通常不到30％，而提高谱图的

学位

开放式质谱库搜索引擎蛋白质序列序列库搜索开放式搜索算法

末端网络监测系统的设计与实现

随着IP网络的飞速发展，互联网的规模越来越庞大，结构也日益复杂，同时，网络上的应用越来越趋于多样化，大量的新型应用给网络环境带来了巨大冲击，网络监测的重要性在这样的背景下日益

学位

网络设备监测互联网流量监测Windows终端行标识SNMP数据获取

延迟容忍移动传感器网络中基于接收者的分阶段数据传输协议

无线传感器网络是一类新兴的网络,它主要通过分布在区域内的传感器节点来感知收集附近的相关数据,并将数据传输到汇聚节点。收集到的数据经过处理之后,最终传输给终端用户。

学位

延迟容忍移动传感器网络路由协议分阶段数据传输举手机制

无线移动网络中位置管理研究与实现

移动性管理是无线通信网络中实现用户快速接入网络并在通信过程中在不同小区间平滑切换的重要保证。随着以OFDM为核心的高速高带宽移动通信技术的发展，蜂窝小区尺寸越来越小，用

学位

无线移动网络位置管理信令开销位置概率预测二分图匹配多播寻呼

社会情感优化算法混合策略研究

社会情感优化算法借鉴了社会学、社会心理学、组织行为学等有关人类群体的形成、进化及决策等方面的研究成果,考虑了情绪在人类决策行为中的作用以及外界信息对人类情绪的影

学位

社会情感优化算法Metropolis准则二次插值法非线性方程组

联合博弈框架下的多Agent强化学习算法研究

与本文相关的学术论文