基于深度强化学习的灵长类仿生机器人悬臂运动控制研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:wws123400
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
灵长类仿生机器人的仿生悬臂运动控制是仿生控制领域极具挑战性的研究热点,具有非常重要的研究意义。本文利用深度强化学习算法,将深度神经网络模型作为机器人控制器,并在机器人仿真环境中对控制器进行训练。主要研究工作如下:针对灵长类仿生机器人的悬臂运动控制问题,设计了面向机器人悬臂运动的深度强化学习算法,并在机器人仿真环境中完成控制器的训练和控制效果的测试。深度强化学习是一种在未知环境中进行学习的算法,需要智能体与环境不断的交互,不断试错进行学习。智能体与真实的机器人环境交互存在交互时间过长、成本过高(机械系统的损耗)和安全隐患等问题。首先我们建立了灵长类仿生机器人的动力学模型,并基于Gym平台建立了机器人仿真环境;灵长类仿生机器人是通过电机驱动的,需要深度强化学习算法针对连续的动作空间是有效的,然后设计了面向灵长类仿生机器人悬臂运动的深度强化学习算法,算法细节包括:深度神经网络结构、优化方法、预处理方法和奖励函数设计等。针对深度强化学习算法中奖励函数太过稀疏和数据利用率不高,以及奖惩描述不准确的问题,提出了基于知识辅助的深度强化学习算法。知识是人类认知世界的总结,知识分为隐形知识和显性知识。针对奖励函数奖惩描述不准确的问题,通过引入欠驱动理论知识来解决,应用动态伺服控制和对称虚约束方法来构建更加合适的奖励函数。通过引入示教数据和优先回放机制来解决奖励函数稀疏和有效数据利用率不高的问题。最后,搭建了灵长类仿生机器人半实物实验平台,采用基于遗传算法的参数辨识方法,确定出实验平台的各项物理参数。将参数应用在机器人仿真环境中,在仿真环境中通过训练得到面向悬臂运动的控制策略,并进行了灵长类仿生机器人悬臂运动实物实验。实验结果表明:所设计的深度强化学习算法和通过训练得到的控制策略的有效性。
其他文献
机械设备通常以振动信号作为故障诊断的依据。振动是一种具有往复特点的运动形式,通常使用的加速度传感器只能得到测点处的直线运动信息,旋转信息则无法获取。鉴于微传感器MPU9250能够同时获得加速度、角速度、磁力计信号,使信息类型丰富与完善。为提高设备信息的全面性与丰富性,本课题设计并开发了一种基于MPU9250传感器的采集与处理系统,并将测点处的局部运动称为微运动。论文的主要研究内容包括:(1)研究了
超级电容器,又被称作电化学电容器,因具备大功率储能特性而备受关注。但其能量密度亟待提高,以满足不断增长的储能需要。以氧化钒等可利用快速可逆电化学反应储能的过渡金属氧化物为电极材料,是提高超级电容器能量密度的有效途径之一。但氧化钒的储能容量、倍率性能等还有待提高,以实现其实际储能应用。纳米及异质结构构建可有效促进电子和离子在电极材料中的传导,进而提高储能性能。本文利用循环伏安技术(CV),在部分剥离
多智能体(Multi-Agents)系统及其协同控制在网络资源优化、交通车辆编队、环境监测、目标搜索等领域应用广泛,已经成为当前控制学科的一个热点问题。而一致性问题是多智能体系统的基础和核心,一致性算法收敛速度起着至关重要的作用。因此本文在已有研究工作的基础上,运用控制理论、代数图论、矩阵理论及稳定性理论等知识,设计多智能体系统一致性算法,提高算法收敛速度,并将算法应用于多机器人编队系统中,具体内
连铸生产中,结晶器电磁搅拌技术已成为改善铸坯质量的重要手段。钢水在电磁力矩的驱使下旋转,实现对铸坯凝固组织、中心疏松、中心偏析、内部裂纹及夹杂物和皮下气泡的有效控制,从而提高铸坯质量。因此研究电磁搅拌参数对结晶器内磁场和流场分布的影响具有重要意义。本文以某钢厂160mm×160mm小方坯连铸机为研究对象,采用数值模拟和现场实验的方式,分析了在电磁搅拌作用下结晶器内磁场的分布规律以及流场流动形态的变
热轧是金属冶炼生产流程中非常关键的生产工序,热轧过程既与前面的连铸工序紧密联系,同时为后续的冷轧过程提供原料,因此对热轧生产调度方案的优化不仅能节约能源消耗、降低生产成本,还对产品质量有重要影响。热轧生产调度问题的重要内容包括热轧生产计划优化问题和加热炉-热轧的区间调度问题。本文针对热轧生产中热轧生产计划编制和加热炉-热轧区间调度两个问题,分别以钢铁企业和铝企业的实际生产过程为背景,进行数学建模和
电机故障诊断一直是设备诊断领域的研究热点,由于电机结构复杂、运行环境恶劣,使故障特征受干扰因素较多,基于传统方法无法准确地从原始数据获取故障特征,从而导致诊断结果的准确度较低。随着信号处理技术的日益成熟以及人工智能方法的快速发展,原本难以获取的故障信息可以利用先进的方法被有效提取。本文针对电机故障数据特征,基于信号处理和智能方法进行故障诊断方法研究,重点研究内容如下:首先对电机故障进行建模,通过机
由于堆取料机不仅在冶金行业应用,而且在其它各行各业都有广泛应用,但设备价值昂贵,堆取料机钢结构腐蚀失效将会带来具有巨大的经济损失以及造成生产安全隐患,延缓和控制设备的锈蚀进程有巨大的经济价值。该项目以宝钢原料厂堆取料机为载体,探索新型防腐蚀工艺,研究采用电化学保护法的可行性。在此基础上,开展了一系列的研究工作,按照研究提出的新型冷镀锌电化学牺牲阳极保护方法以及配套的重防腐复合涂层方案,经炼铁厂确认
人脸超分辨率重建是人脸图像研究领域的热点之一,虽然已经取得了较好的成果,但是对于输入图像分辨率极低,姿态变化大,含有大面积遮挡的条件设置,还是不能很好的进行重建。为了解决以上三个问题,本文提出了一种新的基于深度学习的超分辨率重建算法,主要内容如下:本文的超分辨率重建算法分为两步,首先利用一个低分辨率人脸图像修复网络对输入图像进行修复。由于低分辨率修复网络是采用编码-解码结构,且中间的特征层采用全连
3D打印技术是一种快速自由成形、制造三维实体零件或比例模型的技术,也称为增材制造(Additive Manufacturing,AM)技术。其中,熔融沉积成型(Fused Deposition Modeling,FDM)技术,因为成本低廉、原材料范围广、环境污染小以及后处理简单等优势,是目前应用最为广泛的3D打印技术。然而,材料逐层累加的制造工艺致使FDM零件存在很多诸如气孔、夹杂、裂纹、层间分离
ZnO是第三代宽禁带半导体的杰出代表,室温下的禁带宽度为3.37 eV,具有很高的激子束缚能60 meV,发光波长范围覆盖了从紫外到红外的整个区域,透光率可高达90%。同时,制备ZnO薄膜的原料来源丰富且价格低廉,生长温度相对较低,成膜的质量高,这些都使得ZnO在未来的光电领域中是一种优先考虑的材料。然而,要实现ZnO在光电领域的广泛应用,关键是通过掺杂的方式获得高质量的ZnO薄膜,并以此为基础制