基于行为树和强化学习的服务机械臂操作技能学习方法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:silversandcgliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着服务机器人在家庭环境中的广泛使用,如何让机器人有效地学习复杂操作技能是机器人操作技能学习领域的研究重点。本文基于行为树和强化学习针对家庭环境中的开门放置药瓶复杂操作技能,从模仿学习和强化学习两种角度开展研究。论文主要研究内容如下:(1)结合软硬件建立了服务机械臂操作实验系统和技能学习框架。操作实验系统通过ROS将系统软硬件进行连接,完成了Kinecct V2相机与Kinova Jaco2机械臂之间的眼在手外标定工作与视觉识别系统的建立。操作技能学习框架主要由上下层次结构组成,低层对子技能进行表征学习,上层则对子技能组织顺序进行学习,最终结合软硬件系统实现服务机械臂操作技能再现与泛化。(2)从模仿学习角度提出了一种基于行为树和动态运动基元的复杂操作技能学习方法。该方法将复杂操作技能学习分为上下层次结构,底层是对复杂操作技能的分割和学习表征,上层是基于行为树框架的任务规划和行为校正。首先低层采用BP-AR-HMM算法对示教数据进行分割得到子技能;之后利用DMP算法对分割得到的子技能进行学习表征,建立操作基元库;然后上层根据任务执行逻辑建立任务规划行为树,行为树动作节点为低层DMP表征得到的操作基元,条件节点则根据任务进行设置;并增加了行为校正模块以解决药瓶倾倒情况。实验结果表明,针对开门放置药瓶任务,所提出的方法能够成功再现和泛化该操作技能。验证了所提出方法的有效性和实用性。(3)从强化学习角度提出了一种基于分层强化学习的复杂操作技能学习方法。该方法在BP-AR-HMM算法对任务自动分割结果的基础上,针对传统强化学习训练整个复杂操作技能困难,奖励稀疏,状态空间庞大的问题,提出一种基于子目标的分层强化学习方法。该方法同样包含低层和高层两个层次结构,低层采用SAC算法学习各子任务策略,对子任务进行学习表征,高层则基于最大熵目标算法学习元策略,从而对整个复杂任务进行规划。实验结果表明,与其他算法相比,所提出方法在策略收敛以及学习性能上均表现出更为优异的效果。最后通过虚实转换将高层元策略部署至真实场景中进行了操作技能再现和泛化实验,实验结果验证所提出方法的可行性和泛化性。
其他文献
在时代智能化的洪流中,深度学习的应用促进了计算机视觉领域中目标跟踪的快速进步,现有的目标跟踪算法在速度与精度方面都表现出喜人的态势,使其在面对复杂场景环境时,大多数情况能保持良好的性能。近年来更是涌现出许多优秀的孪生网络,他们同时取得了鲁棒性与实时性的平衡。尽管目标跟踪已在各大领域获得突破性成果,但现有的算法仍然面临着两大挑战:目标对象自身的不确定性,外部环境的多变性。本文主要的研究贡献为提出基于
学位
非线性多智能体系统广泛应用于民生和国防领域,如飞行器、机械手和智能电网等。传统非线性多智能体系统的一致控制技术通常采用复杂的控制器结构。对于处理非线性系统中未知动态的神经网络技术,其权值更新律的设计依赖于确定-等价原则,仅有有限的动态调节性能。同时,多智能体系统运行时不可避免的受到执行器故障和有限通信资源的影响。浸入与不变(immersion and invariance,I&I)理论依赖于系统浸
学位
广义测量(Positive Operator-valued Measurements,POVM)在量子信息领域发挥着举足轻重的作用。本文主要针对POVM在测量设备无关量子随机数发生器(Measurement-deviceindependent Quantum Random Number Generator,MDI-QRNG)与量子随机存取码(Quantum Random Access Code,Q
学位
经济调度作为智能电网系统的运行和控制中的关键问题,在能量管理中显得尤为重要,合理有效的完成调度任务对提高电网经济效益有着极大的影响。分布式经济调度是一种新型发电调度策略,能较为灵活、高效的调节发电状态,提升能源利用效率。此外,收敛速率作为评价系统性能的重要指标,直接影响着系统运行质量。常规的收敛时间有渐近时间收敛,有限时间收敛,以及固定时间收敛。渐近时间策略的收敛时间为无穷大,有限时间策略的收敛时
学位
近年来,无人机凭借其灵活性高、实时性强、监测范围大的优势,被广泛应用于农林植保、电力巡检、交通巡查等行业。随着其应用场景的不断扩展,行业前景也越发广阔。城市安防也是无人机应用落地的重要领域之一,无论是春运、晚会等大型活动安保,还是管控防疫等日常巡查,无人机均能大大缓解治安管控压力。然而,现阶段无人机在行业应用中只起到视频采集的作用,对于图像内容的判断还需要依靠大量人力和时间。随着人工智能的飞速发展
学位
issue追踪系统作为Github的重要组成部分,越来越多的用户和开发者使用它提交问题报告。这些问题报告可以是项目中存在的缺陷,也可以是期待的新功能等,简称为issue。通过提交issue,一方面可以让开发团队更好地了解用户的需求,另一方面也能促进软件项目的迭代和完善。然而在一个项目中通常有数百个issue,开发人员逐条审阅和处理需要消耗大量的时间和精力。Github提供了标签机制来为加快issu
学位
情感分析是自然语言和图像视频处理领域研究的热点问题之一,近年来,随着人工智能的发展和大数据时代的到来,博客、微博、论坛等社交媒体,电商平台以及各种新闻网站已经成为人们日常表达情感与获取信息的重要平台,从而也产生了海量的带有个人情感倾向的文本、图片和视频等数据。针对这些数据的研究对提升平台的服务质量、帮助商家更好地进行产品宣传与销售、进行舆情监控以及个性化推荐等具有积极作用。研究者们最早主要关注于对
学位
量子行走是经典随机行走在量子世界的对应。量子行走与经典随机行走相比具有二次加速特性,基于量子行走的算法效率更高。量子纠缠是量子行走除了二次加速特性之外的另一个重要特征,有两个纠缠粒子的量子行走算法可以区分所有的非同构图,而没有纠缠的量子行走算法只能区分其中的一部分。量子行走中纠缠度量和扩散的研究已引起人们的广泛关注。本论文围绕量子行走中纠缠态的制备和度量展开研究,主要做了以下工作:(1)实现了非均
学位
非正交多址(Non-Orthogonal Multiple Access,NOMA)技术的核心思想是在同一个资源块同时为多个用户提供服务。但是由于NOMA接收端串行干扰消除(Successive Interference Canaeller,SIC)解码的特殊性,将用户全部通过NOMA服务会使得接收端的复杂度很高同时解码错误大大增加。因此,有必要将用户分簇/配对,分簇/配对后的用户通过NOMA服务
学位
随着CT影像技术在现代医学诊断和治疗过程中的应用越来越广泛,CT检查中潜在的辐射风险也引起了人们的广泛关注,过量的辐射容易诱发白血病以及癌症等疾病,因此,降低CT扫描过程中的辐射剂量刻不容缓。使用间隔一定角度扫描的稀疏采样方法可以获得辐射剂量低的稀疏角度CT图像,但是获得的稀疏角度CT图像中存在伪影,降低了图像的质量,影响医生的诊断。本文以去除稀疏角度CT图像中的伪影和增强CT图像细节为目标,构建
学位