基于分层强化学习的多agent路径规划与编队方法研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户：rg595091068

【摘要】

：

多agent系统的研究是当今人工智能和自动化控制领域的最前沿方向。多agent系统在各行各业中都表现出了极大的应用性,其自身所具有的分布性、鲁棒性强以及良好的协作性和适应

【作者】

：

李波

【机构】

：

河南师范大学

【出处】

：

河南师范大学

【发表日期】

：

2016年期

【关键词】

：

多agent系统路径规划编队控制分层强化学习人工势场神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多agent系统的研究是当今人工智能和自动化控制领域的最前沿方向。多agent系统在各行各业中都表现出了极大的应用性,其自身所具有的分布性、鲁棒性强以及良好的协作性和适应性等优点是单个agent系统所不具备的。在实际应用中,多agent一般工作在未知动态环境中,环境中各种动、静态障碍物的状况是agent所不知道的,在处理这些突发情况的时候就要求agent具有较强感知环境和适应环境的能力,强化学习的无环境模型学习能力使agent具有了自学习和在线学习的能力,得到了越来越多研究者们的重视。但是,强化学习最大的缺陷就是遇到复杂任务的时候会出现“维数灾难”的问题。为了解决强化学习的“维数灾难”问题提出了分层强化学习算法,它以半马尔科夫决策为基础通过“抽象机制”把整个学习任务划分成不同层次的子任务,对状态空间降维,来解决“维数灾难”问题。其经典的算法有HAM、MAXQ和Option。最后,本文运用分层强化学习的思想来解决多agent系统中路径规划和编队控制问题,其主要工作概括如下:(1)从路径规划算法收敛速度慢及效率低、适应性差的角度出发,提出了一种基于分层强化学习及人工势场的多agent路径规划算法。首先,对环境中的人工势场进行离差标准化处理构建环境的先验知识,以此可以得到一个目标点具有最大势能,障碍物区域势能值为零的单调递增的曲面。最后,多agent以构建的先验知识为基础,利用分层强化学习的思想,使算法具有任务分层和良好的在线学习能力及自动划分子任务的能力,从而更加适应未知动态环境中路径规划任务。算法依次在出租车问题和中视典三维仿真平台中进行了验证,结果显示多agent对未知环境适应性强,算法的收敛速度快且稳定。(2)针对现阶段多agent编队控制中常出现的环境适应性差、agent无自学习能力和收敛速度慢等问题,本文提出了一种基于分层强化学习及CMAC神经网络的多agent动态编队方法。首先,在多agent动态编队中,引入“抽象机制”把整个任务分为根任务协作层,动作子任务选择层和基本动作执行层三个任务层次对状态空间降维和学习任务分解。其次,利用CMAC神经网络可以作为状态泛化方法和分层强化学习中的Q-学习方法相结合,通过状态变量的分割降级来减少CMAC空间存储量,再利用若干降级后CMAC分别逼近学习状态的Q函数来实现连续状态的泛化,加快算法的学习速率。最后,算法在中视典三维仿真平台验证其可行性,在matlab中证明了算法收敛速度快且稳定。

其他文献

P2P网络中基于节点状态的激励机制研究

随着Internet广泛普及,端用户系统资源的丰富,以及网络带宽的快速增加,传统的Client/Server网络应用模式中服务器的性能瓶颈以及单点失效的问题不仅限制了端系统资源的充分利

学位

节点状态拓扑协议区分服务激励机制

结构化P2P网络的负载均衡方法和通用P2P模拟器的研究

目前，P2P技术已变得越来越流行了。P2P技术广泛应用于资源共享而和存储、多媒体传输、分布式计算、P2P搜索技术、协同工作和分布式数据存取等领域。P2P覆盖网络是构建在低层物

学位

对等网络数据传输路由负载网络架构

蚁群优化算法研究及应用

复杂的组合优化问题呈现于许多不同的领域,例如经济、商业、工程、工业和医疗。然而,在实际中这些种类的问题都非常难以解决。可以从理论计算机科学中摄取解决此类问题的内在

学位

基于群智能优化的智能组卷算法研究

目前,大多智能组卷系统都或多或少的存在着组卷速度慢或成功率低等缺陷,整体水平较低。在智能组卷系统中,如何组建一份满足条件的试卷,其关键问题在于智能组卷算法的设计。因

学位

智能组卷算法群智能优化算法细菌觅食优化算法果蝇优化算法云模型

纺织产品生态安全预警系统设计与实现

当前，我国众多纺织企业所面临的一个普遍问题是其纺织产品的生产与进出口业务受到了生态安全指标超标的影响与制约，而要解决这一问题的较好的方法即是在纺织品生产过程中，尤其是

学位

纺织产品生态安全预警设计模式数据库技术

高校教学质量评价与分析系统的应用研究

教学质量是教学工作的核心，为提高教学质量，增强学校的竞争力，就需要对教师的教学工作进行客观、合理的分析与评价，以便及时了解实际的教学情况，为年终教师晋级、考核和评优等提供

学位

因子分析聚类分析教学质量模糊综合评价高等学校

一种可行的大规模云层真实感建模及绘制研究

高空云层模拟是游戏中天空背景内容描述的一个方向,利用skybox以及skydome模型可以方便实现游戏中各种不同云以及气候环境下天空的模拟。在飞行模拟类游戏中,视点会在空中翱

学位

虚拟现实建模渲染体积云3D纹理

一种分布式入侵防御系统架构和关键算法研究

随着互联网的广泛应用,网络安全问题日益突出。各种类型的攻击手段层出不穷,利用网络进行犯罪的案件逐年攀升。传统的一些网络安全防护措施,如防火墙、身份认证和识别技术、

学位

网络安全入侵防御系统分布式移动代理ARDIPS

因子蛋白的网络模型

近年来复杂网络研究已经成为当前研究的一个热门。研究表明：真实世界中的复杂网络有很多共同特征：小世界性、无标度性、社团结构以及网络的结构和功能关系等。网络由顶点和边组

学位

复杂网络网络程序因子蛋白算法语言

抗几何攻击鲁棒性水印研究

数字水印技术作为解决版权保护和内容认证等问题的有效方法,已经成为了信息隐藏领域的研究热点,并且开始应用于数字产品保护。它是将具有特定意义的标识通过算法嵌入到数字图

学位

数字水印几何攻击DCTDWT

基于分层强化学习的多agent路径规划与编队方法研究

与本文相关的学术论文