基于深度强化学习的移动机器人自主路径规划算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:ytfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
路径规划作为移动机器人自主航行的重要组成部分,受到学者们的广泛关注与研究。如何使机器人适应多样性环境,实现自主路径规划,是当下的研究热点。本文针对动静态的复杂环境,提出一种基于最大熵的深度强化学习方法的机器人自主避障策略,加入优先经验回放提高数据利用率,并引入好奇心驱动机制来鼓励机器人在长序列环境中的探索,融合传统路径规划方法提高算法泛化能力。具体研究内容如下:首先,针对强化学习探索效率低的问题,提出了基于最大熵的深度强化学习方法用于机器人自主路径规划。建立机器人运动模型分析机器人的运动过程,构建端到端的自主规划框架,将通过激光雷达所获取的数据输入到基于长短记忆网络的网络模型中,输出机器人的角速度和线速度。在Gazebo模拟器中搭建包含多种类型障碍物的环境,验证算法性能。仿真结果表明,算法模型在经过训练后达到收敛,机器人可以成功到达目标位置,且不和障碍物发生碰撞行为。其次,针对回合经验值数据量庞大导致数据利用率较低的问题,提出了基于优先经验回放的最大熵算法(Learning good experience based on soft actor-critic,LGE-SAC)。所提算法摒弃了随机采样方法,优先采样符合回报值大于值函数的数据,从而提高数据采样效率;并且根据情景记忆控制思想改变了策略更新方式,对良好的回合经验进行快速重现,使得策略梯度朝着好的方向下降,从而提高数据的利用率。仿真及实验结果表明,和近端策略优化算法(Proximal policy optimization,PPO)相比,基于优先经验回放的方法提高了收敛速度和规划成功率,路径规划时间有所减少,并且可以在真实环境中实现自主避障功能。最后,针对深度强化学习方法在长序列环境中易规划失败,无法探索到目标位置的问题,提出了基于好奇心的深度残差强化学习算法。加入基于好奇心的内在奖驱动机制来激励机器人的探索行为;利用注意力机制处理状态输入,并且修改损失函数,使得机器人重点关注对当前规划有利的状态信息。构建深度残差强化学习框架,融合人工势场法和强化学习的策略输出为混合动作。为了提高所提算法的泛化能力,通过计算不确定性概率,来判别机器人使用先验控制器的规划动作还是混合动作输出,从而改善在新的测试环境中适应性较差的问题。所提算法提高了在长序列环境中探索的单步奖励值以及探索效率,并且在未知测试环境中的路径规划成功率也有所提高。
其他文献
千百年来,各国人民通过古老的“丝绸之路”,在外交、文化、经贸、旅游等领域开展了长期友好的交往。随着我国“一带一路”倡议进一步实施,古老的友好合作篇章继续谱写。今天,人们对丝绸之路各国的历史和文化的了解也愈加迫切。《波斯通史》一书从波斯的埃兰文明早期开始写起,一直到1906年第一部现代宪法的正式通过,全面而详细地介绍了波斯以及中亚、东亚部分国家的历史、地理、政治以及人文习俗。此书的汉译有助于我们加深
学位
设计和构建了发射波长为355nm和532nm的户外型全天时激光雷达系统,用于探测大气气溶胶和水汽。运用355nm和532nm的米散射、532nm的偏振、氮气和水汽分子的拉曼激光雷达技术,用于对边界层结构、对流层气溶胶和云光学特性及其形态、水汽混合比进行连续探测研究。该系统结构紧凑,运输方便,具备远程操作、数据传输、一键式启动等功能。利用该系统对大气气溶胶和水汽进行探测,探测结果表明:大气气溶胶探测
国际中文教材语法本土化注释方式对学习者语法学习有促进作用,但其在学习者理解和产出方面的促学效果不同。理解性题型测试中,使用本土化注释方式的实验组,即时测和延时测成绩均优于对照组;产出性题型测试中,实验组即时测成绩显著优于对照组,但学习效果未能保持至延时测。而本土化注释方式中,“对比”与“对比+偏误”方式的延时测成绩略优于仅采用“偏误”的方式。调查也发现,学习者对本土化注释方式的接受度显著高于非本土
目的:运用电子鼻技术探讨2型糖尿病前期与糖尿病期患者及其常见病位的口腔呼气的气味图谱辨识。方法:选择61例2型糖尿病前期患者、165例2型糖尿病期患者和50例健康者,运用基于阵列式气体传感器技术的电子鼻(EN011103-A)采集口腔呼气的气味图谱,采用模式识别的方法进行气味图谱辨识。结果:(1)2型糖尿病前期常见病位证素分布由高到低依次为肝、肾、肺、脾;糖尿病期常见病位证素分布由高到低依次为肾、
常减压装置是炼厂的重要组成部分,由于装置加工量庞大导致常压炉和减压炉热负荷较高,燃料气的大量消耗增加了装置的碳排放进而对环境造成不利的影响。首先,结合相关标准计算全装置碳排放量并确定了燃料气、电能、蒸汽以及循环水为最主要的排放源。而后借助Aspen Plus流程模拟软件,通过初馏塔、常压塔以及减压塔操作优化,不仅增加了45986.89元/h的经济效益,而且减小了163.42kg CO2/h的装置碳
随着海洋资源的开发和信息化,水下无线传感器网络(UWSN)已在防灾、分布式战术监视、海底勘探、地震监测,环境监测等领域广泛应用。通信技术是水下无线传感器网络的基础和关键部分。但是,与陆地环境相比,海洋环境复杂多变,在这种环境下的通信非常困难。因此,对水下通信方法和网络技术进行了深入的讨论和回顾,例如水声通信、水下光通信、路由和媒体访问控制(MAC)协议以及水下多模态网络进行了回顾和分类。最后讨论了
目的 建立不同产地细辛药材挥发油的气相色谱-质谱联用(GC-MS)指纹图谱,并结合化学模式识别进行评价。方法 采用GC-MS法建立细辛挥发油的指纹图谱,进行相似度评价,并通过聚类分析(CA)、主成分分析(PCA)、正交偏最小二乘法(OPLS-DA)判别分析不同产地细辛挥发油的质量差异。结果 建立了细辛挥发油的GC-MS指纹图谱,确认24个共有峰,并指认了其中10个共有峰。不同批次细辛挥发油样品相似
为理清博弈论视角下我国企业低碳化生产的研究现状,文章整理并分析了国内学者们关于该领域的研究文献,从定量和定性两个方面对文献进行了详细的归纳整理,对当前该领域的研究存在的不足进行了简要分析,并对未来的深入研究进行了展望。