基于师生框架的多智能体强化学习中的知识分享

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：tsmcxuesheng

【摘要】

：

强化学习被广泛应用于解决序列决策任务。然而,强化学习算法的样本利用效率较低,并需要很长时间来学习合适的策略,特别是当多个智能体在没有先验知识的情况下开始学习。该问

【作者】

：

朱昶熹

【出处】

：

华南理工大学

【发表日期】

：

2004年期

【关键词】

：

强化学习多智能体学习师生框架知识分享

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习被广泛应用于解决序列决策任务。然而,强化学习算法的样本利用效率较低,并需要很长时间来学习合适的策略,特别是当多个智能体在没有先验知识的情况下开始学习。该问题可以通过在学习过程中重用来自其他智能体的知识来缓解。一个值得注意的方法是基于动作建议的师生框架。在该框架中,一个经验更丰富的智能体(老师)通过建议在某些状态下应该采取的行动来帮助加速另一个智能体(学生)的学习。对于协作的多智能体强化学习,智能体需要学习最优联合策略而非个人的最优策略。在此场景下,由于所有的智能体的策略在收敛之前仍处于不断变化之中,学生即使遵从有经验的老师的建议也可能与其他智能体合作失败。当智能体之间交流的次数是有限的(如存在交流成本),基于动作建议的师生框架可能不是最佳方案。强化学习算法通过估计每个状态和动作下的累计收益(即Q值)来学习最优策略。该策略指向收益最大的那些动作。在当前状态下,如果学生能基于老师所学习到的Q值选择下一步动作,那么他可以不用花时间在该状态下学习如何最大化Q值。因此,本文为有限交流下的协作式多智能体提出了一种参与者-分享者建议框架(PSAF),其中多个去中心化的Q学习者在整个学习过程中通过分享一定数量的Q值来加速学习。为了模拟通信成本,每个智能体询问和请求Q值的次数是有限的,因此智能体需要选择适当的时候分享Q值。基于Q值分享的建议框架要求建议双方具有相似甚至相同的价值函数。相比较起来,动作建议仅要求学生和老师对被建议的状态和动作有共同理解,而不限制智能体的策略表示,这在实际应用中更具有弹性。此外,传统的师生框架主要解决何时何地建议动作以及建议哪个动作的问题,忽略了如何有效利用老师的建议的问题。基于这两个观察,我们又提出了通过重用建议学习的方法,其中学生在每个时间步下可以决定是否重新使用老师先前建议的动作或在原有的师生框架中学习。我们在三种经典的多智能体任务猎人-猎物游戏、半场进攻和分布游戏中测试了基于Q值分享的建议框架PSAF。对于通过重用动作学习的方法,除了猎人-猎物游戏和半场进攻这两个复杂的多智能体环境,我们还测试了单智能体游戏马里奥。所有的实验结果表明,相比较传统的基于(非重用)动作建议的师生框架,分享Q值和重用建议均能显著加速智能体的学习。此外,我们所提出的方法PSAF能显著的减少预算消耗。

其他文献

低频加速度计的研制及不确定度评价

低频振动在高精度加工、测量、控制等场合会产生负面影响,被动隔振方法难以有效减小低频振动,精确测量低频振动是实现主动隔振的前提。为解决低频微小振动的检测问题,研制了

学位

加速度计低频振动弹簧片DVD光学读取头不确定度

基于车牌识别数据修复的个体出行路径链重构研究

近年来,随着城市车辆保有量的不断增长,交通拥堵问题日益严峻,极大影响了城市个体车辆的日常出行。个体出行路径链中蕴藏着丰富的交通流微观参数,利用出行路径链进行数据聚类

学位

自动车牌识别数据交通流修复路径行程时间估计出行路径链重构

基于脉冲耦合神经网络模型的图像分割方法研究

脉冲耦合神经网络(Pulse Coupled Neural Network-PCNN)是对哺乳动物视觉神经系统进行模拟得出的新一代人工神经网络,因其具有同步脉冲发放、时空综合、自动波等非常有利于图

学位

PCNN图像分割免疫遗传算法图像分割结果评价

经济政策不确定性与企业业绩

2008年经济危机使世界整体经济遭受重挫,我国也深受其害。各国为走出困境出台的调控政策也导致我国经济环境波动。在国内,政府频繁调整的调控措施在缓解经济困境的同时也增加

学位

经济政策不确定性企业业绩杠杆率股权集中度

基于人工神经网络的P91钢长时蠕变寿命预测研究

P91钢由于典型的多尺度微观结构特征使其具备了优异的抗高温蠕变性能,现已成为超超临界火电机组的主蒸汽管道、再热器以及过热器等关键构件的首选材料。长期服役在高温、高压

学位

P91钢高温蠕变寿命预测BP人工神经网络微观组织

移动边缘计算中内容缓存与资源租赁的联合设计研究

伴随着移动通信业务和互联网技术的进一步发展,移动用户对互联网服务的响应速度也有着更高的要求,但目前传统的移动通信网络架构无法满足该要求。而移动边缘计算(Mobile Edge Computing,MEC)的提出,为该问题提供了一种切实有效的解决方案。与传统的移动通信网络架构相比,MEC在移动用户附近部署大量能提供存储和计算功能的服务器,通过将服务器下沉到移动网络边缘的方式,能有效降低互联网服务的响

学位

MEC内容缓存资源租赁缓存放置请求路由

基于张量低秩先验的高光谱图像复原

高光谱图像携带大量的空间和光谱信息,为人们研究地表物体的特性、进行地物识别创造了条件,使其在多个领域受到广泛的应用和关注。然而,高光谱遥感数据在获取过程中受到各种

学位

高光谱图像超分辨率重构截断核范数全变差低秩约束

基于深度学习的铆钉外观缺陷视觉识别技术研究

铆钉作为一类紧固件,常用于航空航天、飞机装配等重要领域中,因此保证铆钉良好的质量尤为重要。目前,基于机器视觉的缺陷检测方法需要人为设计特征提取器对缺陷的特征信息进

学位

深度学习分类特征融合铆钉缺陷检测模型融合

中国对俄罗斯投资的就业效应分析

随着俄罗斯社会政治经济近年来的逐渐回暖,各国的投资者也开始对俄罗斯的投资环境逐渐转向积极角度,评价日趋正面,对俄罗斯投资的积极性也变得越来越高涨。对中国自1978年改革开放以后对俄罗斯的投资分析可以看出中国对俄罗斯投资的规模变化、发展趋势以及给俄罗斯当地所带来的就业效应。自苏联解体后,俄罗斯的经济呈现逐年倒退趋势,越来越多的俄罗斯人民因为国家经济萧条而失业。为了恢复本国的经济发展,俄罗斯政府出台了

学位

中国投资NARD俄罗斯失业旅游业

基于花朵授粉算法的聚类分析异常检测研究

聚类分析是一种无监督的机器学习方法,可以在没有规则库的情况下,通过未标识数据集建立异常检测模型,因此在异常检测领域占有重要地位。模糊c-均值聚类算法_处(fuzzy C-means

学位

异常检测聚类分析花朵授粉算法模糊C-均值柯西变异

基于师生框架的多智能体强化学习中的知识分享

与本文相关的学术论文