基于交替跟踪的分布式多智能体合作学习算法研究

来源 :中南大学 | 被引量 : 0次 | 上传用户：liuw_ei

【摘要】

：

本文以合作式多智能体系统为研究对象,研究应用强化学习对多智能体系统的合作策略进行优化,其中关键问题主要包括学习降维、信度分配与收敛证明三个方面。本文研究的思路来源

【作者】

：

傅波

【机构】

：

中南大学

【出处】

：

中南大学

【发表日期】

：

2014年期

【关键词】

：

合作式多智能体系统分布式强化学习最佳响应学习交替跟踪适应性学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文以合作式多智能体系统为研究对象,研究应用强化学习对多智能体系统的合作策略进行优化,其中关键问题主要包括学习降维、信度分配与收敛证明三个方面。本文研究的思路来源于强化学习理论,其相关定义以离散环境为基础展开,由于其良好的自学习性质广泛应用于合作式的多智能体系统。同时,随着多智能体系统理论研究的进展,对理论在实际中的应用要求进一步提高。然而,“维数灾”问题突出、学习效率低下以及无收敛性理论保证等阻碍了其在合作式多智能体系统的推广和应用。本文针对合作式多智能体强化学习中的降维、信度分配以及收敛理论三个关键问题进行研究。在分布式强化学习的降维手段基础上,提出一种新的多智能体合作学习框架——交替跟踪学习。一方面通过降维的Q学习缓解维数灾,另一方面基于交替跟踪学习框架提高学习效率的同时保证合作策略的收敛,并实现学习智能体的信度分配。此外,针对分布式的多智能体同时学习进行了初步的探讨。首先,以强化学习基本理论框架为对比基础,结合分布式多智能体合作学习环境,定义了新型的降维的奖励以及值函数。从适应性角度分析了最佳响应学习的合理性,假设非学习智能体策略稳定环境下,提出了降维的最佳响应学习算法,并证明了其收敛性。其次,在定义降维跟踪学习值函数的基础之上,提出一种交替跟踪的分布式多智能体合作学习框架,并重点分析了框架的策略搜索、降维、同时学习等特点。并针对实际应用,给出了框架下多智能体进行交替学习的切换机制。此外,在个体奖励已知情况下,将现有的最佳响应算法融入交替跟踪框架,形成一种完全合作式的分布式多智能体强化学习算法。个体奖励相同条件下,多智能体合作推箱子作为仿真对象,验证了所提算法的正确性和有效性。再次,为进一步扩展算法的应用范围,针对一般的合作式多智能体系统,个体奖励未知情况下,提出采用随机逼近方式获取学习智能体的个体奖励以实现信度分配。同样,建立在交替跟踪的交替学习框架下,结合基于信度分配的最佳响应学习算法,克服了个体奖励的逼近问题,提出了一般合作式多智能体系统的强化学习算法。以多智能体合作推箱子作为仿真对象,在信度分配未知下,验证了所提算法的能有效逼近个体奖励并获得较好的学习效果。最后,针对多智能体完全合作环境下学习速度慢及收敛效果不佳问题,提出了基于分布式强化学习的二阶段适应学习方法,依次实现了智能体对环境的适应以及系统内部的协作,有利于大规模空间环境下的实际应用问题。三连杆捉取物体的仿真验证了所提算法的高效性。图15幅,表3个,参考文献64篇。

其他文献

地铁ATS系统仿真研究

论文对地铁ATS系统仿真进行研究，基本内容为:第一章，对实际应用中的ATS系统进行了分析概述，主要讲述了ATS系统的结构、功能和特点，为仿真系统的构建提供研究实体。并阐述了AT

学位

列车运行控制系统系统仿真多线程技术地铁

MiroSot足球机器人决策子系统的研究与设计

机器人足球比赛,是近年来在国际上迅速开展起来的高技术对抗活动,它是体育与高科技结合的产物,比赛融入了机器人学、机电一体化技术、通讯与计算机技术、机器人视觉与传感融

学位

MiroSot足球机器人系统模糊逻辑角色分配运动规划人工势场法遗传算法

基于GPRS的配网故障定位及隔离方法研究与实现

配电系统运行、管理功能综合优化的实现是建立在配电系统信息化基础上的。通信是配电自动化DA(Distribution Automation)的关键，也是配电自动化的核心。在良好的配电网通信系

学位

配网故障定位配电自动化短消息馈线自动化判断矩阵GPRS 网络

基于操作模式匹配的锑粗选药剂添加量智能优化设定方法

摘要：加药量作为锑粗选过程的一个重要操作变量,通常由人工凭经验手动设定,因其主观性强、滞后性大和效率低,使得粗选工况波动大,生产指标难以达到期望值。锑粗选过程积累了大

学位

操作模式匹配改进模糊C均值聚类操作模式演化混沌遗传算法粗选药剂优化设定

基于Agent的供应链管理系统建模与仿真

基于Agent 的建模方法,具有主动性、层次性、动态性和可操作性等优点,为人们认识和理解复杂适应系统提供了富有启发性的新思路和新视角,对于社会、经济、生物和环境等由大量

学位

基于Agent 的建模方法供应链管理系统供应链管理系统仿真龙滩工程

睡眠脑电信号处理及睡眠分期算法研究

现代生活节奏日益加快，人们受到的压力愈来愈大，越来越多的人遭受睡眠问题的困扰。睡眠分期对睡眠疾病的预防、诊断和治疗有着重要意义。传统人工判别睡眠分期方法存在着繁琐、

学位

睡眠分期脑电信号处理特征提取伪迹干扰分类器选择

基于不对称双涡卷系统的多涡卷混沌系统设计与电路实现

摘要：近30年来,国内外在混沌领域已经取得许多重要的研究成果。尤其是在多涡卷混沌系统建模方面,有众多学者提出新的混沌系统模型,介绍多种产生多涡卷吸引子的方法和硬件实现

学位

不对称混沌系统指标2的鞍焦平衡点混沌吸引子模块化设计EWB仿真锯齿函数序列多涡卷混沌吸引子

远程电能量数据终端的设计与实现

远程电能量数据终端(ERTU)是电能量计量计费自动化系统中的重要组成部分。拥有自动化程度高、运行可靠、维护方便的电能量计量计费系统已经成为电力系统自动化改造中的一个重要环节。本文以远程电量数据终端的设计为背景,针对实际工程的应用要求,将实时嵌入式系统的概念引入传统的电能量采集系统,提出了基于实时操作系统VxWorks的远程电量数据终端的设计实现方案。根据项目要求,本文主要完成了以下

学位

远程电能量数据终端(ERTU)嵌入式系统实时操作系统VxWorks

驾驶员面部检测与定位方法研究

据资料显示,高速公路因疲劳驾驶导致交通事故呈上升趋势。因此,如何有效的监测和防止驾驶员疲劳驾驶,对于降低交通事故及人员死亡率,有着十分现实的重要意义。在采用计算机视

学位

人脸检测颜色分割Snake 算法椭圆检测

户用低功耗超声式热量表的研究

目前国内市场上的热量表产品,其流量测量部件多采用叶轮结构,这种结构对水质要求较高,叶轮材质及结构受温度影响大。针对这些缺点,研制了以超声波流量测量为原理的户用超声式热量表。从世界范围内看,超声式热量表也是供热系统未来发展需求。本文详细推导了以热焓差值法为基础的热量测量模型,对热水密度和焓值计算作了简化和补偿,提高了热量积算的精度。在热量表机械结构上,采用了固定短管式V型超声探头安装方式,且

学位

户用热量表超声流量测量低功耗M-bus

基于交替跟踪的分布式多智能体合作学习算法研究

与本文相关的学术论文