多智能体强化学习及其在机器人足球中的应用研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Jordan2391
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体强化学习目前是多智能体系统研究的一个重要热点。在多智能体系统中,环境在多个智能体的联合动作下进行状态的迁移。对于单个智能体来讲,由于其只能确定自身智能体的行为动作,因此产生出另一种形式的非标准马尔可夫环境。机器人足球成为研究多智能体系统的典型问题。机器人足球比赛将过去计算机象棋中的单智能体研究对象发展到分布式多智能体;静态研究环境发展到动态环境;并将非实时知识处理问题发展到实时处理问题,机器人足球是继计算机象棋后出现的发展人工智能的第二个里程碑,它将人工智能技术发展到新的境界。  本文的主要研究内容是多智能体强化学习算法的研究及其在机器人足球平台中的应用,针对多智能体强化学习中存在的难点,本文主要对强化学习的连续空间问题和多智能体学习平衡收敛标准这两个主要问题进行了探讨,并提出了相应的解决方法。同时将所提出的算法用于机器人足球的标准问题-传球问题,通过相应的实验验证了算法的有效性。本文的主要研究内容及创新性成果包括以下几个方面:  1)针对强化学习最典型的函数估计方法-梯度下降法的非收敛性问题,本文探讨了造成此问题的主要原因。对于静态数据的泛化问题,一般采用样本的最小均方误差作为衡量算法性能的标准。当函数估计与强化学习方法结合时,需要提出一种新的衡量标准。根据压缩映射原理,本文提出了基于线性平均的强化学习算法,这种方法的思想是将强化学习的值函数估计函数构造成一个压缩函数,这样,权值的更新过程符合压缩原理,将收敛到局部最优。本文将此算法用于强化学习的标准问题-MountainCar问题,验证了算法的收敛性。并在机器人足球中应用了这种方法,进一步证明了此方法可以用于解决连续状态空间强化学习问题。  2)策略梯度法是另一种解决函数估计不收敛问题的方法,它的主要思想是用一个单独的函数来表示策略,这种方法的难点是策略函数与价值函数参数的更新方法。本文提出的方法是通过构造策略函数与价值函数参数间的某种关系,利用价值函数来控制策略函数沿着策略优化的方向来修正函数值。此算法在MountainCar问题及机器人足球中也得到了验证,证明算法是收敛的并且是有效的。  3)Nash平衡作为随机对策框架下的一种主要的多智能强化学习方法存在两个问题,关于一般和问题的纳什平衡选取问题,及扩展到连续状态空间的可行性问题。本文认为,最佳响应方法更符合多智能体强化学习的理性及收敛性这两个衡量算法的标准,并且容易扩展到连续空间问题。本文将策略梯度法与WoLF-PHC方法结合,提出一种用于连续状态空间的多智能体强化学习算法。它的基本思想是,如果算法的性能得到改进,则减慢学习速度,反之,则加快学习速度。通过算法在机器人足球中这个多智能体问题中的应用,证明了这种多智能体强化学习方法可以提高智能体的学习性能。  4)对于多智能体强化学习算法的研究大部分基于理论探讨,很少应用于实际的多智能体系统中,本文研究了多智能体强化学习方法在机器人足球中的应用。本文研究了机器人足球仿真平台的使用方法,智能体的构造方法及实验的设计,验证方法。通过解决一个标准的强化学习问题,验证了算法的可行性及使用效果。  5)提出了一种机器人足球的硬件平台,此平台基于电磁驱动的原理,实现机器人足球的基本功能,对于进一步验证算法的通用性提供了一个新的平台。
其他文献
齿轮是机械中应用极为广泛的传动元件,作为保证齿轮传动平稳性的重要因素,齿廓偏差是齿轮精度项目评定中的最重要的一项指标。因此,在加工齿轮过程中必须要对齿廓偏差进行测量评
液舱内流体晃荡问题是水动力学比较经典的问题之一,一直倍受学术界和工程界的关注。随着LNG和LPG等特种液货船型的研制和广泛应用,液体晃荡问题的研究已经成为船舶水动力学中
LNG船舶发生液货水域泄漏,可能涉及三个发展过程,分别为NG气体扩散、LNG水面泄漏和水下泄漏。针对这三个过程,本文将理论研究与数值模拟相结合,建立了各过程多维多物理场耦合计算
学位
随着我国铁路实施了第六次大面积的提速,动车组的投入使用,标志着我国铁路列车运行进入了高速铁路时代。由于其速度的不断提高,噪声扰民的现象日益突出,铁路噪声的防治面临着越来越大的压力。因此,迫切需要对铁路两旁的敏感区域进行噪声治理。研究表明设置声屏障是目前噪声控制中应用最为广泛也是最有效的一种方法,但对声屏障的降噪水平评估及噪声预报一直是工程应用中的关键技术和难点。本文汲取国内外的研究成果,并结合声学
船舶运输业的发展为世界经济的繁荣提供了重要保障。船舶在行驶过程中存在着一定的风险,但是随着船舶尺度的不断增大,船舶种类的不断增多,各类船舶损坏的数量及吨位一直居高
数字视频是多媒体信息的核心和最具挑战性的研究领域之一。数字视频信号的信息海量性是数字视频发展的巨大挑战,要解决这个问题单靠网络带宽和硬件技术的发展不是远远不够的,
磨损是工程材料主要的失效方式之一,造成了材料和能源的损耗。要提高零件的使用性能和寿命,就需要提高其表面性能,对材料表面进行相应的处理。镀铁技术作为一种常见的表面强
目的:对耳穴贴压加穴位注射治疗顽固性呃逆的护理效果进行探究.方法:将入组的60例顽固性呃逆患者分成对照组(穴位注射治疗护理)与研究组(耳穴贴压加穴位注射治疗护理),对比两