连续动作空间下的多智能体强化学习算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:t573249005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
真实世界中往往有很多问题例如交通控制、网络包传输及视频游戏等都会被自然的建立为多智能体系统。在多智能体系统中,智能体之间往往需要协同合作来达成共同的目标。先前有许多工作致力于解决多智能体协同问题,这些算法大多是从Q学习扩展得到的,例如分布式Q学习算法(distributed Qlearning)、策略爬山算法(Policy Hill Climbing,PHC)和递归频率最大Q值算法(recursive Frequency Maximum Q-Value,rFMQ)等。但是这些算法只能解决离散动作空间中的多智能体协同问题。然而现实环境的动作空间大多是连续的。现有的很多算法在解决单智能体连续动作空间学习问题上已经取得了很多成果。这些算法主要可以分为两大类:基于函数逼近方法的算法和基于蒙特卡洛采样方法的算法。基于函数逼近方法的算法又可以被分为基于值近似方法的算法和基于策略近似方法的算法。然而上述算法普遍存在一个缺点,即如果他们被直接应用到解决连续动作空间下的多智能体协同问题中时效率会变低,算法的收敛速度慢或无法收敛。基于以上问题,本课题旨在提出一种强化学习算法框架,目的是高效地解决连续动作空间中的多智能体协同问题。根据算法框架,本课题提出了基于递归频率最大Q值的连续动作学习自动机(Continuous Action Learning Automata with recursive Frequency Maximum Q-Value,CALA-rFMQ)算法,CALA-rFMQ算法结合了现存的离散动作空间中的多智能体协同算法的思路,以及连续动作空间中单智能体学习顺序决策算法的思路。CALA-rFMQ算法首先从连续动作空间中均匀采样;然后本文提出了基于WoLS规则的策略爬山(Win or Learn Slow Policy Hill Climbing,WoLS-PHC)算法,并将其与rFMQ算法思路结合,从采样动作中学出前若干个最优动作,这些动作会将原来复杂的连续动作空间划分为若干个连续动作子空间,并将先验经验传入子空间内;之后智能体分别在每个连续动作子空间内使用改进的连续动作学习自动机(Continuous Action Learning Automata,CALA)算法,在先验经验的指导下分别进行探索;最后根据一定的策略从连续动作子空间内探索到原始连续动作空间内的最优动作。最后本课题分别在单状态的重复博弈环境和多状态马尔可夫博弈环境中验证算法的性能,结论是CALA-rFMQ是十分有效的解决连续动作空间下多智能体协同问题的算法,这也证实了本课题所提出的算法框架的有效性。
其他文献
针对刮板输送机链轮在工作过程中磨损过快的问题,提出采用电弧增材制造技术在链窝表面增材一定厚度的高硬度耐磨损层。对比目前各种电弧增材工艺,确定热输入低、沉积速率大的
随着机械工业及工业自动化的快速发展,工业机器人迅速发展起来并发挥着越来越重要的作用,尤其是在自动化装配领域,已广泛运用在汽车制造、家电制造等工业领域。但目前机器人
糖尿病皮肤病变是临床常见的糖尿病并发症,是糖尿病性难愈性创面的病理基础。内质网应激参与糖尿病原发病及多种并发症的发生发展,本实验探究内质网应激在早期糖尿病皮肤病变
城镇化是一个国家进行现代化发展的必经过程。自改革开放以来,中国经济飞速发展,越来越多农村居民转移成为城镇居民,中国城镇化水平也越来越高。然而,城镇化高速发展的同时,我国城市也存在着交通拥挤、环境污染等城市问题。为此,2016年国务院印发了关于深入推进“以人为本”为核心的新型城镇化建设的若干意见,提出了高标准严要求的城镇化路线。本文以我国30个省(市、自治区)为对象,围绕金融创新和产业转型两个维度,
托卡马克中等离子体旋转对提高等离子体约束和抑制磁流体不稳定性具有重要意义。在目前的托卡马克装置中,驱动旋转的主要方式是中性束注入。但是对于未来的聚变堆装置,如ITER
随着传统燃油车带来的能源枯竭、环境污染等问题日益明显,电动汽车因其节能环保等优点而受到广泛关注。电动汽车的电机驱动系统作为核心部件之一,已然成为研究热点。相比于类似燃油车的集中驱动系统,电动汽车独有的轮毂驱动方式省去了机械传动装置,增加了控制自由度,具有更好的发展前景。自减速永磁复合轮毂电机(SelfDecelerating Permanent Magnet in-Wheel Motor,SDPM
多环芳烃(PAHs)是一类广泛存在于自然界中的持久性有机污染物,具有难降解、致癌、致畸、致突变等特性,其污染面广、来源多,一直是环境领域的重点监测对象,而且近年来已逐渐成
近年来,以Web服务为基本构件的面向服务计算(SOC)得到越来越广泛的关注,将发布的单个服务组合成更强大更可靠的系统能够进一步发挥SOC的优势,因此服务组合与验证一直是Web服
随着国际往来贸易的不断增加,各国都在加快海运服务和海运贸易的发展,海洋运输作为各国之间货物贸易的主要运输方式,其重要作用不断凸显。提高海洋运输的效率,不仅可以帮助船
全氟有机酸(PFAs)因其具有独特的物理化学性质,已被广泛应用于金属电镀、泡沫灭火剂等行业。继全氟辛磺酸(PFOS,C8)被限制生产后,链长更短的全氟己磺酸(PFHxS,C6)等替代品的生产和