基于多目标强化学习的移动机器人路径规划研究

来源 :常州大学 | 被引量 : 0次 | 上传用户:sssmickey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动机器人的路径规划分为单目标路径规划和多目标路径规划。强化学习方法能够有效解决单目标路径规划问题,但多目标路径规划问题通常包含多个相互冲突的目标,且强化学习中标量形式的奖励很难同时描述多个目标,导致强化学习算法在多目标路径规划问题中性能不佳。针对上述问题,本文将多目标强化学习(Multiobjective Reinforcement Learning,MORL)应用于多目标路径规划,使用向量形式的奖励描述多个优化目标,并分别研究适用于低维空间和高维空间的MORL算法。主要工作如下:(1)针对低维空间的多目标路径规划问题,提出了一种基于表格型方法的MPS(Multi Pareto Sarsa)算法。以向量集的形式更新价值函数,使用基于投票法的集合评估机制作为行为策略。最后在低维的网格实验中测试MPS算法的性能。实验结果表明,基于投票法的集合评估机制为算法提供了较好的收敛性能,且MPS算法具有优秀的超体积性能。(2)针对高维空间的多目标路径规划问题,提出了一种基于神经网络近似方法的EDNs(Envelope-Dueling-Noisy-soft)算法。使用神经网络近似价值函数,根据Dueling网络改进神经网络结构。在网络全连接层添加探索噪声,提高智能体的探索效率。使用软更新方法更新目标网络的参数,提高算法的稳定性。最后验证EDNs算法在低维网格环境中的可行性。实验结果表明,EDNs算法能够有效解决低维的多目标路径规划问题,并且在低维环境中具有很好的稳定性和探索能力。(3)验证EDNs算法在高维的多目标路径规划问题中的性能。首先,基于ROS和Gazebo搭建三维仿真环境,采用Turtlebot3作为实验对象。然后,为算法设计状态空间、行为空间和奖励函数。最后,在训练回合与测试回合分别测试EDNs算法的性能。实验结果表明,EDNs算法能够有效解决高维的多目标路径规划问题,且EDNs算法在高维环境中具有很好的稳定性与权重适应能力。
其他文献
微铣削是最常见的微制造工艺之一,在生物医学、电子和航空工业中具有广泛的应用。它不仅可以在各种材料中制造具有复杂特征的几何形状,还能够快速实现微纹理和微图案加工,并且由于现代技术设备组件的小型化、精密化趋势加快,微铣刀加工应用越来越广泛。但是微铣刀比常规铣刀磨损更快,单靠人工实现对微铣刀磨损检测会造成大量的资源浪费,提高生产成本。因此本文结合深度学习模型提出一种微铣刀磨损自动检测方法。主要研究内容如
学位
大数据时代产生的海量数据是当今数据型经济的重要支撑,如何运用好这些数据是如今社会、经济发展的关键问题。这些海量数据中存在一部分数据属于时间序列,所以有学者针对时间序列预测方法展开了一系列研究。本文针对不同时间序列预测任务研究相应的预测算法,来提高对应算法的非线性拟合能力、泛化性能等。针对实时在线时间序列预测任务,提出了基于MCP(Minimax Concave Penalty)正则化SWESN(S
学位
由于室内环境下信道的复杂性并且无法接收到卫星信号等原因,室内移动目标定位问题一直没有得到很好的解决。目前已有的技术各有其优缺点:由于多径效应的存在,射频识别定位技术在障碍物较多情况下定位精度较低;由于易透露敏感场景信息,基于视频和图像的室内定位技术虽然技术成熟且成本较低,但会带来显著的隐私风险。本文基于振动传感网络采集脚步引发的结构振动信号实现人员的室内定位,具有非侵入、低隐私和传感器布置要求少等
学位
7075铝合金是一种超硬铝材料,其凭借高的比强度、硬度和韧性等优点,被应用于航天航空、石油开采和车辆零部件加工等领域。在实际工作环境中,磨损失效问题严重制约着其使用寿命。本文以7075-T651铝合金为研究对象,对其进行氮离子注入强化处理,采用理论分析和实验研究相结合的方法,探究氮离子注入对其表面完整性、微观结构和摩擦磨损性能的影响,在此基础上探究氮离子注入前后7075铝合金磨损表层晶粒细化对其耐
学位
报纸
对于中国来说,发展无污染能源,风能是主力军。风力发电机作为风电的主要设备,尤其备受关注,这类高耸塔式结构纵向尺寸和横向尺寸之比很大,整体结构的抗弯刚度相对柔软。在许多自然灾害如地震、台风等发生时,载荷作用于建筑物产生弯矩,当此数值大于极限屈曲值,就会出现断裂、坍塌等破坏现象。本文通过ANSYS软件的有限元分析方法,选取某1.5MW风力发电机,通过建立模型,做了一系列工作,本文主要研究如下:(1)在
学位
动力波洗涤技术自被美国孟山都公司开发以来,在国民经济各行业中的运用已经十分广泛,尤其是在脱硫脱硝的行业。不同于其他湿法脱硫反应器,动力波洗涤器具有净化效率高、喷嘴不易堵塞、配置方便灵活、操作弹性大等优点。喷头是动力波洗涤装置的核心部件之一,喷头内流道的结构直接影响洗涤液的喷出情况,进而影响动力波洗涤器对工业废气的处理效果和脱硫效率。改进喷头的结构,对于优化整体结构、提高气液混合效果和脱硫效率有着至
学位
人教版教材由国家教育部审定,合理设计了课程来培养学生的空间想象能力。教参最有参考性,给教师提供了重要的教学建议。深入教参,整理出五年级涉及空间想象能力的内容,归纳出培养学生空间想象能力的建议。
期刊
命名实体识别是自然语言处理的基础任务之一。在临床医学领域,围绕医学信息进行数据分析和命名实体识别可为后续构建医学知识库和辅助推荐系统等相关任务提供数据基础。因此,医学命名实体具有重要价值,但医学文本大都为非结构化数据,文本领域性强、实体类型多且行文较为复杂,在命名实体识别过程中会面临更多挑战。本文以中文电子病历为主要研究对象,深入研究病历行文特点和文本实体特征来设计和改进现有模型结构。针对当前命名
学位
传统充气轮胎存在爆胎问题,影响工程机械的正常服役,而免充气轮胎不会爆胎,因此其在工程车辆领域的应用前景看好。仿生技术是近年来的新兴课题,借鉴自然界中生物体的结构特点,将其改良并引入工程机械结构设计中,可以达到提高强度、节省材料等目的。为此,本文在免充气轮胎国内外研究现状分析的基础上,应用仿生技术,提出了一种满足可靠性指标要求的工程机械仿生免充气轮胎结构,并对其承载能力、等效应力、接触压强等进行了研
学位