基于多智能体强化学习的机器人协作算法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:liongliong499
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体系统是由多个通过与环境动态交互来优化策略的智能体组成,其目的是通过系统内的多个智能体间的高效协作来完成复杂的全局目标。现有研究表明,深度强化学习可以有效增强每个智能体的学习和决策能力。然而,多智能体强化学习的研究还面临环境动态变化和维度灾难导致的协作不充分问题。本文针对多机器人系统这一典型的多智能体系统,面向动态环境下多机器人协同导航和多机器人无线通信资源资源分配任务需求,研究了基于多智能体强化学习的多机器人分布式协同策略学习方法。具体的研究内容如下:1.为多机器人在动态复杂环境中的协同导航提供安全和高效是一项具有挑战性的任务。现有的工作要么随着机器人数量和障碍物数量的增加性能急剧下降,要么缺乏知识迁移能力。为了解决这些问题,本文提出了一种新的多机器人协作导航方法,称为HRMR-Navi。它构造了一个由图卷积神经网络和图注意力神经网络组成的两层图网络和一个基于注意力机制的通信模型,其中图卷积神经网络层用于求智能体间关系,图注意力网络层用于求智能体组间关系。此外,为了提高机器人的探索能力,我们提出了一种基于最大熵强化学习的近端策略优化算法MEPPO。实验结果表明,与现有的方法相比,HRMR-Navi实现了更高效的合作导航和更好的知识迁移。2.6G网络实现了子网范畴的演进,形成“子网网络”,其中,拥有多传感器和控制器的机器人是典型的子网模型。然而,由于机器人子网的动态移动性,子网内和子网间的数据传输不可避免地会相互干扰,这对无线资源管理提出了巨大的挑战。此外,现有的大多数方法都要求知道难以收集的子网间的瞬时信道增益。为了解决这些问题,本文提出了一种新的基于多智能体深度强化学习(MARL)的无线资源管理方法,该方法只需要每个信道上的接收功率之和,即接收信号强度指示器(RSSI),而不需要即时信道增益。然而,直接根据RSSI分离出单个干扰几乎是不可能的事情。为此,我们进一步提出了一种新的MARL体系结构,名为GA-Net,它用一个硬注意力层,基于RSSI对子网间关系的重要性分布进行建模,并排除不相关子网的影响,同时使用一个带有多头注意层的图注意力网络来提取特征并计算其权重,从而影响个体吞吐量。实验结果证明,我们提出的框架在各个方面都显著优于传统的和其他基于MARL的方法。
其他文献
我国是能源消费大国,发展核电是必然趋势。在核电设施快速发展的背景下,核事故的预防与应对成为了社会普遍关注的问题。作为保障核安全的最后屏障,核应急交通疏散能够有效降低应急计划区内公众的核辐射暴露风险,是最直接、有效的应急响应措施。但由于核应急交通疏散期间存在潜在风险,会直接影响疏散效果,且大规模疏散易导致交通拥堵、应急资源紧张等问题。因此,本文将针对核应急交通疏散展开研究,在充分考虑疏散风险的基础上
学位
随着新一轮基础教育课程改革的推进,校本课程开发进一步得到重视,《普通高中生物学课程标准(2017年版)》也为高中生物学选修课程提供了多个选题模块的开设建议。脑科学作为20世纪迅速发展起来的一门新兴学科,在脑的活动规律等领域中均取得了一系列的研究进展,促进了人类对脑的深入认识。而认识人脑的结构和活动规律,有助于学生了解脑的重要性,学会基于脑的活动机制增强脑的各项功能,从而促进身心的健康发展。但是,目
学位
目的 研究听觉、触觉与视觉多感官刺激因素介入阿尔茨海默病老人护理的反馈效果,借助智能软硬件技术增强其对音乐的感知,设计多感官交互的老人智能穿戴产品。方法 根据感知替换及通感原理,创建能够将音乐转化为振动及视觉信息的感官替代方法,并通过实验测试分别验证听–触觉和听–触–视觉两类多感官交互原型的可行性。结果 在融合听–触觉的基础上加入视觉设计,可以更好地激发老人的言语行为能力。在收集被试者使用反馈分析
期刊
《普通高中英语课程标准(2017年版)》(以下简称新课标)强调了语篇的重要性,因此对学生的语篇能力进行考查和培养是必要的。高考是全国范围的选拔性考试,能够直接反映中学教学是否符合课程标准、中学教育质量是否合格,对学生的英语学习具有重要的导向作用,同时,新高考改革实施以来,高考英语试题有所变化,因此对高考试题中的语篇能力考查进行探究就显得尤为重要。本研究主要采用文本分析法和访谈法,基于国内外研究成果
学位
社交媒体的快速增长使人们能够通过分享他们的情绪以及他们对任何特定主题的意见或评论的形式进行交流。因此,这导致了大量非结构化数据的生成。商业组织需要处理和分析这些数据,通过更深入地了解用户情绪来支持他们的决策。此外,客户在购买产品或使用服务之前首先阅读意见和评论。由于各种基于互联网的应用程序和网站的繁荣,监测和分析意见和情绪并手动从中提取有价值的信息是一项具有挑战性的任务。因此,需要自动情绪分析或意
学位
为探究AR图书交互设计的变化和发展,对多感官通道整合理论进行研究,探索多感官视角下的交互设计,并提出以AR图书为表达载体的设计策略,以此帮助AR图书更好地结合纸本阅读与数字阅读的优点,探索自身作为新媒介的阅读价值。
期刊
5G的发展和AI应用场景的增加,将会对人们的工作生活方式产生巨大的影响,企业应该抓住这次机遇,创造出更好的产品、提供更好的服务。近年来,由于移动智能的兴起,对话服务成为了一个热门的研究方向。智能助理将在这个变革中扮演重要角色,用户通过语言和计算机进行交互,将大大提高人机交互的效率,通过对话就可以完成问题咨询、流程办理将极大的提高用户的使用体验。在商业应用中,企业的目的是在特定场景为用户提供服务,因
学位
阅读教学有很多目标,其中引导学生梳理文本意义、感知与运用文本语言、分析与评价作者写作意图以及情感态度价值观是占据阅读课最多时间的一项,而实现这一目标的重要途径则是教师提问。然而,仅仅关注单个问题的形式、内容层次是远远不够的,我们需要新的研究视角,即从宏观、整体的视角来研究课堂提问,关注教师能否实施连贯的、有逻辑递进的提问序列,推动学生对文本意义进行深度、开放的理解。有鉴于此,本研究以上海市不同类型
学位
近年来,由于区块链技术的迅速推广和数字货币的快速发展,数字货币投资逐渐进入人们的生活,与此同时,伴随着近日来数字货币市场的利好行情,全球投资者的情绪日益高涨,人们纷纷开始关注其涨跌趋势。短文本社交平台作为人们发表个人观点的媒介,在很大程度上表达了投资者的情绪态度。对于市场中的信息,人们往往会关注各类主流资讯平台来作为其投资依据。本文以数字货币的代表比特币(Bicoin,BTC)为例,研究其历史价格
学位
在英语成为“国际通用语”、“中国文化走出去”战略的国内外背景下,我国英语教学不仅需要关注世界优秀文明成果,也应当充分关注本土文化意识的培养,重视优秀传统文化的传承,提高学生用英语表达中华文化的能力。教材是教师实施教学活动的依据,教材中文化内容的呈现及文化活动的设计影响着英语教学中文化教学的内容、方式及学习效果。本文对中日两套高中英语教材的本土文化活动展开比较研究,旨在对两套教材在本土文化活动设计上
学位