基于多智能体强化学习的迷宫导航研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:wc420178
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体迷宫导航是指多个智能体从迷宫中指定或者任意的初始位置出发,在不与障碍物和其它智能体碰撞的情况下,以最短的路径快速地到达各自指定的目标点。强化学习是一种模拟生物获取奖励值,并根据奖励值完成决策过程的方法。多智能体强化学习将强化学习引入到多智能体系统中,通过学习的方式实现智能体之间的合作与竞争。利用多智能体强化学习进行迷宫导航不仅需要考虑智能体与环境之间的自主交互学习,还需要考虑智能体之间的协调,因此带来了挑战。本论文基于多智能体强化学习方法,研究了迷宫导航问题,主要的工作如下:首先,总结了近年来强化学习和多智能体强化学习的研究进展,阐述了多智能体强化学习的原理和面临的挑战,并对多智能体强化学习的研究内容进行了系统的分类。另外,论述了多智能体强化学习方法应用于迷宫导航中的优势,并详解了本文所使用的栅格型和连续型两类迷宫环境。其次,研究了多智能体强化学习方法在栅格型迷宫环境中的应用,提出了一种分层结构,用于减少智能体在迷宫环境中初始时刻的探索时间。针对算法收敛困难的问题,提出一种融合环境模型的多智能体强化学习算法,加快了算法的收敛速度。考虑到智能体之间由于协调性不足而导致的环境非静态问题,使用滞回强化学习的方法,使得算法收敛的更加稳定。通过在2D和3D栅格型迷宫环境中进行的仿真实验,验证了所提算法能够显著减少智能体在迷宫中的探索时间。最后,研究了多智能体深度强化学习方法在连续型迷宫环境中的应用,采用执行器-评价器结构,通过集中式的评价器进行训练,并使用独立式的执行器执行动作,有效地解决了智能体在迷宫导航中面临的环境非静态和部分可观测等问题。针对传统经验回放的不足之处,提出使用优先经验回放机制提取经验池中的数据,提高了数据的使用效率。考虑到评价器中过高估计带来的误差,提出一种双网络结构,缓解了过估计误差对算法收敛性能的影响。通过在连续型迷宫环境中的仿真实验,验证了在智能体数量增多时,所提的算法具有更好的收敛性能,并且能够更快的到达各自的目标点。
其他文献
文章系统阐述了上海曹杨新村社区“15分钟社区生活圈行动”的规划工作思路、规划目标策略以及更新实施路径;介绍了规划采用多样化的公众参与的工作方法,了解并分析居民对社区发展的需求和居民对社区存在的短板和特色优势的评价。规划在补短板的同时强调因地制宜地凸显社区的优势资源,以价值为导向营造社区特色,通过多方协同实现社区高品质更新的目标。
期刊
手性是生物和自然的基本特征,可以在多种尺度以及不同层次上观察到。由于超分子化学和分子自组装的快速发展,超分子水平的手性目前引起了极大的关注。超分子手性是通过弱的非共价相互作用,使分子之间的排布方式变得有序,进而实现手性放大,最终表达出来。共轭体系的引入是超分子手性体系设计的基本策略,其π-π堆积作用可作为超分子手性的重要驱动力。本文基于萘,芘这两种π-共轭型的分子,详细研究了其光学性质及超分子手性
学位
绿色发展一直是我国所倡导的发展主题,如今“十四五规划”已提出了推动清洁能源高效利用、发展绿色建筑、推进重点行业及领域绿色改造的议题。然而,我国的大量既有建筑存在着能源消耗浪费的现象,造成了诸多负面影响,其中办公建筑所占的能耗份额巨大,对其绿色化改造具有重要意义。但在改造过程中涉及较多利益相关者,诸多风险因素相互交织使绿色化改造进程复杂艰难,因此有必要探究其风险关键点,寻求推进绿色化改造的有效措施。
学位
当下我国第三方检测行业在当前全球贸易量不断扩大的形势下进入了高速发展期,检验检测实验室数量增长迅速,但实验室检测技术能力、质量管理水平并没有相应提升,这已成为我国检测行业待解决的现实问题。所以本文选择对现阶段大多数第三方检测机构需要着重解决的质量管理水平问题进行研究分析。本文对国内外质量管理领域研究发展进行了梳理,在国内对实验室质量管理体系建设方面的文献进行了归纳,列举了实验室质量管理体系在各个领
学位
电化学储能装置的开发和应用给人们的生活带来了许多便利,特别是近年来以锂离子电池为代表的二次电源的飞速发展。硅由于其高的理论容量,低工作电位以及自然丰度,是锂离子电池有希望的负极候选者。然而,硅在充放电过程中会发生巨大的体积变化,导致硅的结构粉化,与集流体失去电接触,容量下降,循环寿命较差。目前已经为硅负极开发了多种材料策略,通常包括硅的纳米结构化以及与各种功能性基质(例如碳纳米管,石墨烯和三维多孔
学位
移动便携式和柔性可穿戴式电子设备的飞速发展,在人们的生活中承担着越来越重要的角色,大大提升了人们的生活质量。锂电池因其制备工艺成熟、能量密度较高的优势成为目前移动便携式和柔性可穿戴电子设备的首选电源。移动便携式和柔性可穿戴式电子设备的发展,要求锂电池向更轻、更薄、更柔、能量密度更高的方向发展。目前商用电池的集流体一般是以铜箔和铝箔为代表的金属箔,具有面密度大、机械性能差的缺点,阻碍了高能量密度柔性
学位
有机太阳能电池以其可溶液加工,质量轻,柔性等特点受到广泛关注。经过多年的发展,有机太阳能电池的能量转换效率有了极大提高,这都得益于不断涌现的高性能新材料和不断创新的器件制备技术,其中高性能材料的开发是目前效率不断突破的关键原因,本论文主要介绍了三种新型宽带隙给体材料,并对其光伏性能进行了研究。(1)根据之前报导的基于DTP受体单元的给体材料L1,通过用硫代内酯取代内酯,合成了基于DTTP受体单元的
学位
以某电厂350 MW超临界对冲旋流燃烧锅炉为研究对象,对锅炉冷灰斗区域管壁急剧减薄进行原因分析及调整建议。针对管壁腐蚀垢样的成分,开展了外观分析,X射线荧光光谱(XRF)、X射线衍射(XRD)、扫描电镜和能谱分析,化学定量分析和金相组织分析,得出垢样中S、C含量较高。同时结合冷灰斗区域贴壁气氛及温度测试结果,得出高温腐蚀及煤粉刷墙是造成冷灰斗处管壁急剧减薄的主要原因。通过降低下层燃烧器外二次风旋流
期刊
共价有机骨架(COF)是一种结晶性的多孔有机聚合物。自Yaghi及其同事于2005年报道了开创性工作以来,COF已成为功能材料设计的强大平台。迄今为止,COF的结构研究主要集中在框架的拓扑结构和孔道工程上。拓扑结构的类型和孔的修饰在调节COF的性能中起着重要作用。设计具有不同大小和特定对称性的单体可以调控框架的拓扑结构。COF的孔道表面工程主要通过预修饰或后修饰调节骨架的化学组成,同时实现孔的功能
学位
金属基纳米颗粒在光学、催化、传感、生物医学、电子等领域有广泛应用。自从纳米酶和生物正交反应的概念提出以来,具有类酶活性的金属基纳米颗粒在医学上的应用引起广泛关注。金属基纳米颗粒可以作为生物反应的催化剂或抑制剂,应用于调节生理活动和治疗疾病。糖代谢是人体重要的生理活动之一,以食物为主要来源的糖类物质进入人体后,经过一系列的分解反应,为机体生命活动提供所需的能量。糖代谢异常会引发一系列相关疾病。开发可
学位