基于深度强化学习的多模块机器人重构规划方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:ysr123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器人广泛应用于现代工业社会的各个领域,其中多模块机器人因其优秀的多任务多地形复杂场景适应性而受到广泛关注。多模块机器人的优势主要来自于其构型可以自由变化以及灵活的运动方式,研究者们通过良好的重构规划策略实现这些优势,而重构规划的关键技术包括构型选择和运动规划。另外,多模块机器人的各个模块都有着相对独立的感知能力和运动能力,在复杂地形场景下完成各类任务的过程中,规划策略应该在一定程度上保证其各个模块之间的运动协调一致性。这对多模块机器人重构规划方法提出了更高的挑战。深度强化学习作为一种端到端的方法,近年来有大量研究将其应用于机器人任务上。它可以让机器人学会从周围的环境信息中直接决策出构型和运动策略,对噪声的鲁棒性较强,对传感器的精度依赖较低,同时与深度学习的结合赋予了其较强的实时环境感知和决策能力,能够让智能体以无地图的方式在未知环境中规划运动以完成任务,这些特性使得深度强化学习算法适用于动态复杂环境下的机器人任务。基于上述优势,本文提出了一个基于深度强化学习的重构规划算法。多模块机器人的高自由度使其重构规划方法存在高维状态空间和动作空间问题,这导致规划求解困难。传统的运动规划方法一般基于环境的部分先验知识预先设定场景-任务模式的对应关系,然而这种人为设定逻辑的任务模式转换方法并不适合于复杂未知环境,同时也使得规划解难以达到最优。考虑到任务决策能够分解任务层次,降低规划难度,使得解良好收敛,因此本文进一步提出基于任务决策的运动规划方法。具体研究如下:(1)提出基于深度强化学习的构型-运动分层重构规划框架,由上层构型选择模型和下层运动规划模型组成。两个模型共享奖励异步更新,并通过设计场景运动模式的方式保证模块之间的运动协调,使得整体框架能够搜寻到适应于复杂场景的机器人构型及其相应的运动策略。(2)基于上述重构规划框架,进一步提出基于任务决策的分层运动规划方法。在构型优化的基础上,让机器人自动学会场景-任务模式的对应关系。通过上层的任务决策模型和下层的运动控制模型相结合,增强了多模块移动机器人的重构规划能力,更好地实现多任务场景下的适应性优势。(3)基于Webots机器人仿真平台搭建了实验环境和仿真框架。重构规划实验在时间效率,能量效率和综合任务成功率上论证了所提框架的有效性。本文基于深度强化学习对多模块机器人的重构规划方法展开研究,高效实现其在复杂场景下的适应性优势,因此有重要的理论研究意义和工程实践价值。
其他文献
癌症一直是人类健康的巨大威胁。现代社会中,更多的外在因素成为了恶性肿瘤的发病诱因,但是癌症最根本的发病原因体现在基因的变化上。通常,癌症是通过发病的组织来源进行命名,但是同一部位的癌症会由于内在基因表达水平不同,具有不同临床表现,这种异质性使得同一部位的癌症分为不同亚型。为了提高癌症的治愈率,需要根据每个亚型制定合适的诊断与治疗方案。辨别癌症的亚型被认为是个体化治疗的关键和具有挑战性的步骤。现有的
学位
图数据在生物、化学信息学等领域有许多关键应用,如分子属性判断,新药发现等。图这种数据结构还可以用来表示关系型数据,比如社交网络、知识图谱等。图结构数据因为其强大的表示能力,受到越来越多研究人员的重视,使用图神经网络(Graph Neural Networks,GNN)从图数据中学习到的高质量的节点嵌入和图嵌入被广泛应用于图数据分析中,例如节点分类、连接预测以及图分类等问题。将CNN的卷积原理应用到
学位
甜菜红素是一种天然色素,广泛存在于红甜菜和火龙果皮及果肉之中。甜菜红素的主要成分甜菜红苷(Betanin,Bt)具有诸多功能特性,且被欧盟批准为红色食品着色剂,被广泛用作果酱、冰激凌、蛋糕等食品着色。但甜菜红苷易受温度等因素的影响,稳定性较差,目前研究通过小分子辅色、微胶囊化等方法改善甜菜红苷稳定性,虽有一定效果但存在诸多缺陷和安全隐患。本论文选用乳蛋白中的乳清蛋白(Whey Protein,WP
学位
特征选择是特征工程中的一个重要问题,是缓解“维数诅咒”的有效方法。随着大规模数据在各个领域的不断涌现,如何从高维数据中快速有效地识别关键特征,对鲁棒模型的构建,以及进一步从关键特征中发掘出隐藏信息,有着重要的社会价值和现实意义。本文的主要贡献在于针对特征选择问题改进差分进化算法和灰狼优化器,为缓解“维数诅咒”困境提供新模型、新方法。具体地,一种基于自适应机制的加权差分进化算法(Sa WDE)被提出
学位
嵌合酶是指由两种或两种以上酶的不同功能片段融合而成并呈现出新催化特性的酶分子。其出现及其相关技术的发展为酶工程的研究和应用提供了新策略。利用蛋白质工程技术构建嵌合酶来实现酶的底物选择偏好性改变一直是科学研究热点。基于此,本研究以Rhizomucor miehei来源的脂肪酶RML为研究对象,与实验室前期研究已挖掘出具有磷脂酶活力调控功能的蛋白元件嵌合,构建系列新型嵌合脂解酶,开展其酶学性质表征研究
学位
多智能体系统对解决分布式问题具有灵活性和智能性的特点,并且在仓库管理、自治交通工具、机器人、物流交付等多个领域有着广泛应用。多智能体路径规划是多智能体系统的核心问题,研究多智能体路径规划问题,可以提高多智能体系统的运行效率,同时对多智能体系统所应用的领域的发展有着深远影响和积极意义。虽然目前的多智能体路径规划方法已经取得不错的成果,然而,由于规划空间过于复杂,现有的方法将规划空间采样成为参考点或者
学位
赶黄草(Penthorum chinense Pursh),又名扯根菜,是虎耳草科扯根菜属植物,其富含黄酮类、萜类、多酚类、木脂素类、有机酸类等活性成分。现代药理学研究表明,赶黄草具有抗氧化、护肝利胆、抗病毒、抗肿瘤、抗炎、降血脂等多种生物活性。目前鲜有针对赶黄草不同地上部分的活性物质的对比研究,因此本文以赶黄草花总黄酮(H-Fla)、赶黄草叶总黄酮(Y-Fla)为研究对象,对其进行了提取工艺优化
学位
RNA结合蛋白(RNA-binding proteins,RBPs)是一类与RNA调节和代谢相关的蛋白质,在RNA成熟、转运、定位和翻译过程中起着重要作用。然而,生物实验性的全基因组RNA结合检测方法成本高且耗时。因此,迫切需要一种高效、快速的方法来利用从现有标注知识中学习到序列模式来预测RBP结合位点。由于紫外交联免疫沉淀结合高通量测序(CLIP-seq)的快速发展,积累了大量关于RNA分子与R
学位
单氯丙醇酯(monochloropropandiol esters,MCPDE)包括3-氯丙醇酯(3-monochloropropandiol esters,3-MCPDE)和2-氯丙醇酯(2-monochloropropandiol esters,2-MCPDE),与缩水甘油酯(glycidyl esters,GE)类物质是动植物油脂高热加工和食品烘焙、煎炸等热加工过程中常见有害物质。烘焙食品加
学位
菠萝作为世界著名的热带水果,被广泛应用于日常消费和深加工,但在这些过程中会产生大量的废弃余渣,如果不加以合理利用,会造成资源浪费和环境污染。然而,对于菠萝余渣纤维素进行高值化利用的相关报道较少。纤维素作为自然界中最丰富的一种多糖,约占菠萝加工余渣比重的40%,具有较大的提取和利用价值。纤维素纳米晶作为纤维素的衍生物,表现出极佳的力学性能、阻隔性能、表面活性和无毒性,在聚合物材料领域具有广泛的应用前
学位