基于深度强化学习的机械臂卷积神经网络控制策略研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：b411574103

【摘要】

：

家庭服务机器人作为机器人应用领域的重要组成部分,由于其在执行家务劳动时具有任务种类繁多且不可预知等特点,因此对于算法的适应性以及学习能力提出了严格的要求,而如何通

【作者】

：

王超

【出处】

：

哈尔滨工业大学

【发表日期】

：

2018年期

【关键词】

：

机械臂深度强化学习策略搜索卷积神经网络端对端控制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

家庭服务机器人作为机器人应用领域的重要组成部分,由于其在执行家务劳动时具有任务种类繁多且不可预知等特点,因此对于算法的适应性以及学习能力提出了严格的要求,而如何通过算法使家庭服务机器人满足以上要求并提高机器人的智能化程度,也成为当前该类机器人发展的关键。针对家庭服务机器人提高智能化程度的迫切需求,本文通过基于策略搜索的深度强化学习算法对家庭服务中最为基础的物品放置任务进行了研究,同时针对当前基于最优控制的策略搜索算法参数初始化过程随机以及卷积神经网络策略结构设计困难和训练时间长等问题,重点开展了基于策略搜索的机械臂控制器参数初始化与优化方法研究以及卷积神经网络的结构设计和训练方法研究,并通过仿真与实际实验对以上方法进行了验证。具体开展如下研究:首先,针对机械臂需要具有自主学习能力的要求,研究并编写了策略搜索算法,通过建立代价函数、拟合局部环境动态模型并在该模型基础上使用最优控制方法生成并优化控制器,使机械臂具有了自主学习能力;针对基于最优控制的策略搜索算法控制器参数初始化过程随机的问题,通过引入基于线性卡尔曼滤波位置速度预测模型的思想,减小了控制器优化过程的随机性;同时通过进行仿真实验,验证了以上方法的有效性以及策略搜索算法的学习能力。其次,针对策略搜索算法在目标位姿变化时都需要重新学习的问题,研究并构建了卷积神经网络控制策略,通过设计卷积神经网络视觉层与电机控制层结构,建立训练过程的损失函数、采样方法以及初始化方法并设置神经网络训练方法,使机械臂对于物品放置位姿具有了一定的适应性并完成了对机械臂的端对端控制;针对卷积神经网络训练时间长的问题,提出了有效的预训练方法缩短了神经网络的训练时间;同时通过进行仿真实验,验证了以上方法的有效性以及卷积神经网络策略的端对端控制效果和对目标位姿的泛化能力。最后,通过实际实验对以上策略搜索算法以及机械臂卷积神经网络控制策略进行了进一步验证。通过使机械臂执行不同操作对象以及目标位姿的物品放置任务,进一步验证了策略搜索算法的学习能力;同时通过训练和测试卷积神经网络策略并进行“蒙眼”实验,进一步验证了该控制方法的端对端控制效果以及对于目标位姿的适应性。

其他文献

小型牙刷植毛机数控系统的模块化设计

论文着重论述了植毛机电气控制系统的主要硬件模块:单片机控制模块、键盘输入模块、LCD显示模块、PLC控制模块、伺服控制模块及其软件模块.植毛机采用闭环控制方式及逐点比较

期刊

数控装置单片机可编程序控制器模块化设计

学而时习之不亦说乎?——浅谈高中新课程化学作业的设计

优化作业设计是新课程改革的重要组成部分,积极推进化学作业改革,使新课程作业能够巩固和检查基础知识和基本技能,深化、提高过程和方法,发展在体验和实践方面的功能。笔者结

期刊

新课程作业设计

“家种”与“野生”四川朱砂莲的镇痛及其药理作用的比较

四川朱砂莲(Aristolochia cinnabarina C.Y.Cheng et J.L.Wu),用热板法和醋酸扭体法证实人工栽培朱砂莲比野生朱砂莲镇痛作用强。腹注5min出现镇痛,40～50min出现镇静,镇痛随镇

期刊

四川朱砂莲镇痛升白耐缺氧86铷

我国商业地产估值方法优化探讨

商业物业估值会显著影响持有人的融资规模与融资成本。当前,商业地产现金流评估方法的完备性以及估值结果的合理性并未得到足够的重视,融资方差额补足、担保等增信措施成为资

期刊

商业地产估值方法优化路径

四级协管:破解土地执法难题——福建省龙岩市建立国土资源协管队伍情况调查

<正>龙岩市位于福建西部,闽、粤、赣三省交界,辖5县1区1市,是典型的"八山一水一分田"山区市,人均耕地面积0.84亩,辖区内矿产资源丰富,金、煤、铁、稀土等16种矿产储量居福建

期刊

国土资源县乡村土地执法监察协管员福建省龙岩市

职业技能培训模式的创新与实践

本文分析了创新职业技能培训模式的背景,指出了当前职业技能培训模式中存在的不足,并结合多年实践经验,提出创新职业技能培训模式的具体对策。

期刊

技能人才培训模式创新实践

基于社会性交互的网络教学平台的研究与实现

近年来,随着网络教育的飞速发展,网络教学平台也显得越发重要。但是,目前国内外网络教学平台仍存在着某些不足,难以满足应用需求。例如社会性交互不足,学生学习过程枯燥,缺乏

学位

社会性交互Sakai教学平台MOOC

天然小分子化合物对CFTR的激活作用

囊性纤维化跨膜电导调节因子（cystic fibrosis transmembrane conductance regulator，CFTR）是一种典型的cAMP依赖的氯离子通道，在所有与分泌和吸收相关的上皮细胞内表达，CFTR的突

学位

CFTR橘皮素去氢木香内酯激活剂膜片钳技术

菟丝子属植物常见种类鉴定特征及防控方法

指出了菟丝子属植物是入侵性极强的杂草,近年来在城市园林绿地中发生日趋严重,对菟丝子属植物的常见种类、形态特征及其习性进行了整理,并对其的防控方法进行了总结,以期为菟

期刊

菟丝子鉴定特征防控

株洲湘江一桥桥墩抗船撞能力评估及防撞方案研究

船桥碰撞事故常有发生，为评估已建桥梁桥墩的抗船撞性能、指导防撞方案设计，以株洲湘江一桥通航孔8～10号桥墩为对象，建立有限元模型计算了桥墩在受到单位水平撞击力时最危险截面

期刊

桥墩最危险截面桥墩抗力船舶撞击力复合材料防撞系统有限元法

基于深度强化学习的机械臂卷积神经网络控制策略研究

与本文相关的学术论文