基于深度强化学习的移动机器人避碰规划方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:sticker2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动机器人(Mobile Robot)属于智能机器人的一种,自主避障能力是其完成一切任务的重要保障。传统避碰规划方法受测量不确定性影响和优化算法性能优劣影响的劣势越来越明显,而深度学习通过明显提高移动机器人学习能力与智能化水平,从而打破传统避碰方法上的一些局限,故结合智能算法、深度学习的移动机器人避碰算法是未来的发展趋势。因此,本文设计一种应用于未知静态与动态障碍物环境下的移动机器人避碰规划问题的带辅助任务的深度强化学习方法。本文主要从以下四个方面开展研究:首先,针对基于强化学习的移动机器人国内外研究现状进行了分析与总结,同时对强化学习在无人系统领域的研究进展以及避碰问题研究现状进行了归纳。根据移动机器人与传感器自身特性建立相应模型与坐标系统。其次,针对障碍物环境下的移动机器人避碰问题设计一种基于异步行动者-评论家算法(Asynchronous Advantage Actor-Critic,A3C)的移动机器人避碰规划算法。该算法结合时序差分(Temporal Difference,TD)算法与策略梯度,适用于离散与连续动作空间;而本文考虑到移动机器人运动约束条件,采用连续动作空间并对艏向转角采取相应约束,然后对该算法进行设计,并在不同静、动态障碍物环境下进行仿真验证。然后,本文对A3C算法使用的深度学习神经网络模型进行分析,利用长短时记忆(Long Short Term Memory,LSTM)神经网络序列信息输入特性以及长时记忆功能,使神经网络具备“长时记忆性”从而提升网络学习速度,最终使用LSTM神经网络替代原始A3C网络中的深度神经网络(Deep Neural Networks,DNN)。最后,进一步对A3C算法改进,提出一种有辅助策略的A3C和LSTM相结合的避碰规划算法,设计包括机器人速度控制(Velocity Control,VC)以及对自身的位置估计(Position Estimate,PE)两种辅助策略,并就相应参数、奖励函数等改动做出分析。在动障碍物环境下将A3C结合LSTM的避碰规划算法与A3C结合LSTM和VC避碰规划算法训练后的网络进行对比仿真验证。并且在本文搭建的不同静障碍环境下进行A3C、A3C结合LSTM、A3C结合LSTM再进一步结合PE算法训练后的网络模型进行对比仿真实验。仿真对比结果表明,经历同样训练回合数后,速度控制能够有效提高网络的学习能力并加速模型收敛,从而使移动机器人在该环境下经过大量的训练,最终成功实现躲避障碍物并到达目标的目的。同时,实验结果表明将原始DNN替换为LSTM同样优于改进前A3C算法,而A3C_LSTM_PE算法表现最优,证明了避碰规划改进的有效性。
其他文献
纪录片《保护伞》围绕“保护伞”这一主题,以跟踪拍摄、分阶段采访的摄制形式,真实、客观地记录了袁佳馨和其母亲在袁佳馨艺考、高考的道路上,二人对学习与生活的不同态度和行为,反映了孩子在成长的道路上渴望独立,走出父母的保护伞,但在挣脱父母保护的过程中,遇到了种种迷惘、挫折;同时也表现出家长对孩子的关爱与保护,但在孩子成长过程中,给予了过多的干预与保护,让孩子走出保护伞这一方面意识不足。影片通过上述两者的
产品饱和、红海市场、竞争激烈!随着全球变暖及制造工业的迅速发展,家用空调制造在我国80年代开始得到了飞速发展。目前家用空调的市场竞争异常激烈并达到白热化的状态,市场上同类公司数量大,且价格战不断,随着家用空调的材料成本及人工成本的上升,M压缩机公司生产的旋转压缩机市场面临的形式越来越严峻。如何开辟出新的空调市场来缓解生存压力?如何提高生产效率并推进智能化产品?如何提升内部的运营效率来降低产品成本?
在这个内容为王的新时代,传统媒体的地位已经开始遭到动摇,以抖音为代表的新媒体和自媒体平台凭借自身与时俱进的、创新的技术赢得广大受众青睐,自觉分担起传统媒体传播知识、教育的社会职能。短视频技术的发展带来了知识生态环境的变革,“戏精”群体作为抖音平台知识传播的新生力量,一改知识传播“你怎么说我就怎么转述”的呆板传统方式,向“无论你怎么说我都能变着花样展示”的灵活方式转变,为受众带来别样的文化体验。知识
随着科技急速发展,人们对纺织品的要求不单单满足于装饰保暖,而是更加关注其功能性。拥有多种功能的纺织品,如超双疏、自清洁、光催化、抗紫外、阻燃、电磁屏蔽等,大大扩展了纺织品的应用场景,并在各领域都表现出广阔的应用前途。根据Wenzel或者Cassie-Baxter模型,织物要想达到超疏水性能必须符合两个条件:织物表面要有微纳米的粗糙结构、表面要有低表面能物质。而SiO_2气凝胶是一种具有三维空间网络
目的:采用静息态功能磁共振成像(Resting-state Functional Magnetic Resonance Imaging,rs-fMRI)探讨轻度认知障碍(Mild Cognitive Impairment,MCI)向阿尔茨海默病(Alzheime
时下,环境治理业已成为国家全面深化改革的重点领域。作为环境犯罪的主要表现形式,污染型环境犯罪在环境犯罪规制中倍受关注。宏观来看,污染环境罪的规制是一个涉及行政、刑事乃至于民事三者相互交织的多元化议题,而伴随环境刑法规范的不断完善,刑法学视阈下污染环境犯罪的释义研究日益兴起。其中,法益作为刑法学的核心概念,关系着立法与司法运行过程中有关污染环境罪规制实践的指导与解释。2011年,立法机关对刑法第33
随着计算机信息时代的到来,人们依靠信息通信已经实现了万物互联,网络给人们带来极大便利的同时也带来了信息泄露、恶意窃取等各种问题,均造成了较为严重的后果。为了有效地保证用户信息中数据的安全,数据加密算法是当今社会一个不可忽略的研究方向。本文基于FPGA平台来实现AES数据加密算法,对算法的理论深入研究,并完成算法各模块的验证与仿真,在其基础上完成优化过程的实现。首先提出L模块代替算法中复杂的轮单元结
近30年来,汽车保有量快速增长,汽车事故频发,因汽车碰撞事故而丧生的人数在逐年的增加。提高车辆的被动安全性,最大程度的使乘员在碰撞中免受伤害,成为汽车行业面临的重要课题。本文借助Hyper Works与LS-DYNA软件模拟了某型号SUV电动汽车正面25%偏置碰撞过程,从成员保护角度分析了该车的安全性能。对影响整车被动安全性的关键部位进行了优化和改进。重新建立整车有限元模型,进行了正面25%偏置碰
频率域航空电磁法(FAEM)电阻率、磁化率同步反演是指在一次迭代过程中,同时更新电阻率模型和磁化率模型;联合反演是根据地下多种物理性质,通过模型参数相互约束实现反演,可以压制噪声降低多解性。本文选择频率域航空电磁二维双参数同步反演进行研究,并且与航空磁法进行联合反演研究。频率域航空电磁法属于人工源方法,因此本文在CSAMT二维正反演算法基础上,开发了航空电磁的二维正演算法,并且在传统算法的基础上加
人工智能领域的不断发展为科学预测提供更多策略,但是传统的预测方法都有一定程度上的不足。极限学习机算法作为一种新型的单隐层前馈神经网络被应用于预测中,它克服了传统预测方法的一些不足,提高了算法的训练速度,降低了参数的调节时间,避免了传统神经网络容易陷入局部最优的缺点。本文在深入研究极限学习机算法理论的基础上,为了改善极限学习机预测模型性能,提出了两种不同的改进方法,论文完成的研究内容如下:首先,针对