多机器人追捕问题的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sbb20005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多机器人追捕问题是研究机器人之间协调和协作的最理想的平台。将强化学习算法应用到追捕问题当中可以使多机器人系统主动的去探索环境,适应环境,从而提高自身的性能和稳定性,而直接将标准的强化学习算法直接应用于多机器人系统会使得系统的状态空间随机器人数量成指数倍增长,从而导致算法收敛速度缓慢,难以在实际中应用。对此本文以降低系统状态空间的大小,提高算法的收敛速度为目的,进行了如下研究:首先,介绍了强化学习算法的基本框架和它的数学模型,并列举了常用的强化学习算法及其算法流程。简单描述了多机器人追捕问题及其状态抽象、动作抽象和回报函数的定义,并考虑到传统状态抽象法中存在状态重复的问题,提出了动态ID状态抽象法来降低系统状态空间的大小,并与传统的状态抽象法在使用标准Q学习算法的基础上进行比较。其次,介绍了分层强化学习的基本原理,采用分层强化学习中的状态空间分解法来将原状态空间分为多个部分,即采用OPTION-学习算法使最优策略的求解过程分散到每个子空间上,从而降低策略空间的数量,加快了算法的收敛速度,并在采用动态ID状态抽象的基础上与标准强化学习算法进行了比较。最后,本文采用值函数分解来改进了OPTION-学习算法,将OPTION-算法中的子任务的状态值函数分解为两个部分,使得其中重复的部分可以重复调用,降低了算法对同一状态的访问次数,从而加快了收敛速度。并与OPTION-学习算法在用动态ID状态抽象的基础上进行比较。
其他文献
在火电厂生产过程中,由于过热器工作在高温高压条件下,因此过热蒸汽温度也就成为锅炉汽水系统中工质的最高温度。作为火力发电机组中的主要工作参数,过热蒸汽温度的测量和控制对于火电厂的安全和经济运行具有重要作用。过热器是一个多容而且延迟比较大的惯性环节,影响过热蒸汽温度的扰动因素比较多。在各种不同扰动因素的影响下,过热蒸汽温度控制系统变得越来越复杂。本文基于无模型自适应控制方法,设计了火电厂过热蒸汽温度控
学位
近年来,随着木质材料需求量不断攀升,木材干燥设备研发规模更是日趋壮大。为提高木材利用率、干燥质量、干燥速率,智能化木材干燥测控系统的研究越来越受到人们的关注。本文以某
进入二十一世纪,伴随着电子信息技术的飞速发展,网络信息化的普及使得互联网技术迎来了一个前所未有的发展机遇。网络信息资源的不断增长不仅为人们提供了更多获取丰富的知识的
这些年来,由天然气管道泄漏引起的爆炸事故逐年增加,这是由于管道使用时间长、维护保养不到位、管道内壁缺陷发现不及时等原因引起的,因此需要加大对天然气管道内壁缺陷的检测研
基于视觉的板球控制系统,是一个非线性欠驱动的动力学系统,它通过摄像头采集球的位置信息,经过相应的控制算法来控制电机的运行,其目标是实现球的定位控制以及轨迹跟踪,是一个研究
目前火电厂的单元机组都朝着大容量、高参数方向发展,对热工自动化水平提出了越来越高的要求。为了保证生产的安全性和经济性,对在热工自动控制系统中应用的先进控制策略进行深
近年来,随着对动力系统如飞行器、核电站以及离岸大型风力发电设备可靠性要求的增加,故障检测与隔离(FDI)和容错控制(FTC)受到了越来越多的关注。执行器、传感器与其他零部件的
针对电站仿真机模型在机理建模和模型参数优化中存在的问题,本文对超临界机组过热蒸汽系统仿真模型参数优化进行了研究。本文研究的主要内容包括:首先本文对超临界机组过热蒸汽系统的物理模型及数学模型进行了分析。超临界机组过热蒸汽系统中低温过热器(水平段)、低温过热器(垂直段)、屏式过热器和末级过热器内的工质都为单相介质,其换热过程及特点是相似的;本文运用质量守恒方程、能量守恒方程以及传热学公式,建立了一个通
学位