基于确定性策略梯度算法的机械臂控制模型构建及仿真

来源 :粘接 | 被引量 : 0次 | 上传用户:erdanws
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:为更好的实现对工业制造领域中机械臂的控制,结合当前的深度学习算法,提出一种改进奖励函数的DDPG机械臂控制方法。在该方法中,通过引入多奖励参数等方式,增强机械臂控制的灵活性,提高目标抓取的准确率。最后通过参数设置和DDPG网络模型构建,对改进方案进行验证。结果表明,该改进方式在目标抓取方面更具有稳定性。
  关键词:DDPG算法;机械臂控制;仿真;奖励参数
  中图分类号:TM359.9 文献标识码:A 文章编号:1001-5922(2021)09-0151-04
  Construction and Simulation of Manipulator Control Model Based on Deterministic Strategy Gradient Algorithm
  Jia Hongtao, Hu Wenjuan
  (Shangluo Vocational and Technical College, Shangluo 726000, China)
  Abstract:In order to better control the manipulator in the field of industrial manufacturing, combined with the current deep learning algorithm, a DDPG manipulator control method with improved reward function is proposed. In this method, multi reward parameters are introduced to enhance the flexibility of manipulator control and improve the accuracy of target grasping. Finally, through parameter setting and DDPG network model construction, the improved scheme is verified. The results show that the improved method is more stable in target capturing.
  Key words:DDPG algorithm; manipulator control; simulation; reward parameters
  機械臂在工业制造领域发挥重要作用,早期的机械臂控制方法采用的是基于任务的精确数学模型,这种控制方法下的机械臂的自适应性不理想,只能满足特定工作条件和指定任务目标下的应用需求,而无法根据任务或缓解的变化而做出调整,从而实现更好地控制效果。在最近几年间,深度强化学习(Deep Reforcement Learning,DRL)实现了快速发展,并逐步推广到机器人控制、人工智能博弈等领域,其中的一个重要突破就是机械臂控制开始引用DRL技术。应用于机械臂控制领域的DRL技术主要是确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),该算法在发挥强适应性控制效果的同时,也暴露出诸多弊端,比如学习效率低、不稳定、调参难、难复现等。针对该问题,文章提出DDPG算法以提高机械臂控制中目标点到达以及目标抓取任务中的学习效率。
  1 深度确定性策略梯度算法
  运用DQN拓展Q-Learning的方法,Lillicrap等进一步改进了确定性策略梯度算法,创建了DDPG算法。DDPG算法是强化学习领域的重要发展成果,它的前身是最初的策略梯度算法(Policy Gradient,PG)以及其后的确定性策略梯度算法(Deterministic Policy Gradient,DPG)。DDPG整体结构如图1所示。
  2 实验机械臂设计
  在二维平面上,机械臂关节坐标位置和机械臂关节旋转角度的关系可用图2表示。
  图2中,o表示坐标原点或仿真机械臂的根节点。l1的一侧端点坐标是a=(0,0),也就是位o点之上,l2末端坐标是,l1与l2的焦点b的坐标是。同理,可计算出关节点a、b和c的相对位置,以及目标区域中心点T。
  3 基于改进DDPG的机械臂控制设计
  3.1 输入状态信息设计
  考虑到在二维机械臂仿真环境中的状态信息并不充分,因此选用三层全连接网络进行数据特征提取即可满足应用需求。具体控制策略如图3所示。
  通过上述的策略,可获取2段机械臂l1、l2的关节角度信息、。
  设定机械臂l1、l2的长度均为100,通过上式(1)获取与环境相关的状态信息,这些状态信息也是算法的状态输入。
  式(2)中,d1-x,d2-x分别是机械臂关节b、c的横坐标距离;d1-y,d2-y表示目标中心点T的纵坐标距离;d3-x,d3-y分别是目标中心点T与仿真环境中心点的横坐标距离、纵坐标距离;goal表示布尔值,当机械臂末端在目标中心点T范围内部,布尔值等于1,否则等于0。通过式(2)可获取算法输入的7维状态信息。
  3.2 输出控制动作设计
  完成以上网络控制策略后,机械臂的2个关节动作控制量可表示为式(3)。
  其中,a表示动作输出控制量w1、w2,它是由转动角度变量共同构成的,其单位是弧度。其中,w1表示机械臂l1根关节在该次动作中所需转动的角度,w2表示机械臂l2与机械臂l1连接关节在该次动作值所需转动的角度。转动角度变量w1、w2的取值区间是[-1,1],设定这一角度区间是为了避免出现机械臂转动突变的情况,也是防范控制异常的常规办法。   在完成关节旋转动作以后a=[w1、w2],机械臂的关节角度从变化成,即输入7维状态信息,输出2维的关节转动控制量。
  3.3 原始奖励函数改进
  设r为二维仿真机械臂奖励函数,奖励r包括r1与r2两部分组成。
  式(4)中,r1表示目标区域中心点与机械臂末端的距离奖励函数,;r2表示稀疏奖励函数,即机械臂末端在目标区域内环境反馈值为1的单步奖励;r=r1+r2表示DDPG算法的原始奖励函数。
  研究认为,传统的单一奖励函数设置无法对机械臂动作的优劣程度做出准确评定,也无法通过训练建立理想的算法模型。优化后的奖励函数能够避免机械臂的无效探索,还能够促进强化学习算法走向收敛,对此,可以组合应用分布奖励、稀疏奖励、形式化奖励等不同的奖励方法。举例来说,选定上式(4)作为机械臂的奖励函数,在算法控制下,机械臂会进行转圈甩动,其末端会在某一瞬间抵达目标块位置,然后继续转圈甩动偏离目标点,说明该算法只能实现机械臂转动至目标点,却不能使机械臂停留在目标点。根据式(4)的弊端,文章提出了多种奖励策略相结合的奖励函数,即增加r3以改进该奖励策略。
  式(5)中,d、d`分别表示机械臂末端与目标点在这一时刻及下一时刻的距离。在上式(6)中,奖励函数包含了r1、r2、r3三部分。其中,r1表示机械臂末端与目标点之间关于距离的惩罚性奖励函数,二者的间距越大,r1值越大,表示惩罚越严重,反则反之。
  3.4 整体机械臂抓取控制策略设计
  结合以上输入、输出,以及对奖励函数的改进,将DDPG的网络结构设计为如图4所示。
  DDPG包含策略网络和价值网络,它们的学习率均是10-3,奖励折扣率y=0.9,回放记忆单元存放数据量为30000,单次提取的数据batch_size=32。根据上述设计的网络结构看出,首先从save、R、S以及S_中调取出经验回放池内的数据,应用Actor网络和Critic网络进行对其训练。然后,应用依据策略梯度和TD残差更新策略网路和价值评价网络的权重,实现参数优化。
  4 实验验证
  4.1 参数设置
  设训练集总数为2000,每集最大步数为300,目标区域的大小为40×40。若目标域连续停留50步,即可判定控制机械臂已经抵达目标点并处于稳定状态,随即终止该轮训练。
  4.2 实验结果
  4.2.1 不同奖励函数下的奖励变化趋势
  reward_trend表示平均奖励随训练集数的变化趋势。同时为对比该算法的优势,将上述改进的奖励函数与传统的A3C奖励函数进行对比。根据实验,得到图5的结果。
  根据图5所示,A3C算法有效利用了cpu的多核性能,可同时对多个智能体进行训练,因此提高了计算的效率。此外,该算法还可以信息共享的方式更新结构参数,进而提高训练速度。通过对比上述两种奖励函数下的收敛速度发现,本研究提出的改进DDPG算法波动性的平均奖励上升速度更快,波动性最小,说明该算法拥有更好的收敛性,只需有效的集数就可以实现收敛上升。
  4.2.2 训练效果对比
  通过对比A3C算法与改进的DDPG算法在最后100集中的训练效果,得到图6的对比结果。
  由图6分析,A3C算法平均每集所用步数是171.30,改進DDPG算法的平均步数是111.45。依据上图6(a),每10集进行一轮统计,发现改进DDPG算法的整体步数普遍少于A3C算法,而且相对步数的波动性更小。依据上6(b),在100集内最终达成探索任务的,A3C算法只有77%,而改进DDPG算法增加至87%。综上可知,改进DDPG算法在准确性、稳定性上都优于A3C算法,整体表现更优。
  5 结语
  通过改进的DDPG算法与传统的主流算法相比,在机械臂的连续控制效果方面,无论是在准确性,还是在稳定性方面,都具有明显的优势。说明文章改进的奖励函数方式对提高机械臂的稳定性具有非常积极的作用和价值。
  参考文献
  [1]李广源,史海波,孙杳如. 基于层级深度强化学习的间歇控制算法[J].现代计算机(专业版),2018(35):3-7.
  [2]多南讯,吕强,林辉灿,等.迈进高维连续空间:深度强化学习在机器人领域中的应用[J].机器人,2019,41(02):276-288.
  [3]刘乃军,鲁涛,蔡莹皓,等.机器人操作技能学习方法综述[J].自动化学报,2019,45(03):458-470.
  [4]柯丰恺,周唯倜,赵大兴.优化深度确定性策略梯度算法[J].计算机工程与应用,2019,55(07):151-156+233.
  [5]解永春,王勇,陈奥,李林峰.基于学习的空间机器人在轨服务操作技术[J].空间控制技术与应用,2019,45(04):25-37.
  [6]卜令正.基于深度强化学习的机械臂控制研究[D].徐州:中国矿业大学,2019.
  [7]王斐,齐欢,周星群,等.基于多源信息融合的协作机器人演示编程及优化方法[J].机器人,2018,40(04):551-559.
  [8]周庆锋,王思淳,李德鑫,等.基于DDPG的风电场动态参数智能校核知识学习模型[J/OL].中国电力:1-8[2020-09-18].
  [9]张耀中,许佳林,姚康佳,等.基于DDPG算法的无人机集群追击任务研究[J/OL].航空学报:1-13[2020-09-18].
  [10]张斌,何明,陈希亮,等.改进DDPG算法在自动驾驶中的应用[J].计算机工程与应用,2019,55(10):264-270.
其他文献
摘 要:在干湿环境下,丙烯酸树脂粘接剂存在不同的反应状态,不同反应状态下可释放出不同浓度数值的银离子,为此,测定干湿环境下丙烯酸树脂粘接剂银离子释放浓度。准备实验材料与仪器后,制备丙烯酸树脂粘接剂,借助于外部溶液,设定粘结配比方案,然后连接制备装置并准备丙烯酸树脂粘接剂粘接的干湿环境,消解粘接剂中影响银离子释放的离子,构建银离子释放浓度测定方法。最终的测定结果显示:在干环境下,银离子为残渣和吸附物
摘 要:自制EN312是一种高性能的、可稀释使用的钢丝复合管用粘接树脂。测试了其主要性能,并研究了其添加不同比例管道级聚乙烯2480稀释应用的管材的性能。结果表明:EN312添加60%~80%的2480使用,对钢丝的剪切强度影响不大;EN312添加60%~80%的2480作為粘接树脂应用于dn160×2.5MPa钢丝管,管材的剥离强度、爆破压力、20℃、2PN、1h静液压、60℃、1.2PN、16
摘 要:针对现有建筑围护结构节能优化技术普遍存在实际节能率和节能效益较低的问题,提出一种基于线性规划法与0-1整数规划法结合的优化模型,通过充分考虑建筑围护结构的效益与节能特性,实现了节能效益最大化。最后,将提出的优化模型应用于成都某建筑维护结构,证明了该优化模型具有一定的可行性,可将节能效率从53%提高到61%,节能效益从102.869元/m2提高到111.9022元/m2,较大程度地提高了建筑
摘 要:文章制备了一种具备坚固延展性的塑木复合材料板,针对塑木复合材料板制备的方法及综合性能展开研究。塑木复合材料基于自身高韧性与耐磨性适用于制造韧性弹力强度较高的产品,例如:防撞板墙、篮球地板、篮球架板、高价值器械包装托盘等;塑木复合材料板由改性木粉、界面胶剂、改性橡胶颗粒、柏油、氧化聚乙烯以及抗氧剂等高分子材料制成,该板材在生产制造中方便快捷、生产线连续生产、生产效率极高;与传统木质板材相比,
摘 要:在制备幕墙硅酮密封胶的过程中,探讨交联剂和稳定剂对硅酮密封胶的影响,结果表明,在基料和其他助剂用量用量一定的条件下,适当增加交联剂和稳定剂的含量,硅酮密封胶的表干时间、挤出性和力学性能均有所提升,随着交联剂和稳定剂含量不断增大,会造成硅酮密封胶最终产品质量,影响产品性能指标。  关键词:交联剂;稳定剂;稠度;力学性能  中图分类号:TQ436+.6 文献标识码:A 文章编号:1001-59
文章建立了弱电网短路故障期间,考虑锁相环和电网传输线路的双馈风力发电系统小信号状态空间模型。基于小信号状态空间模型,研究了双馈风电系统在低电压穿越过程中的动态特性,从机理上阐明弱电网对称短路故障期间系统的振荡失稳原因,并对故障期间的双馈风力发电系统进行了全面模态分析,确定了系统最弱阻尼的振荡模态。通过特征根轨迹,综合评估了电压跌落程度、锁相环带宽、转子电流环带宽对双馈风力发电系统小信号稳定性的影响。最后,通过Matlab/Simulink仿真验证了理论分析的正确性。
摘 要:随着医学影像技术的快速发展,医学影像的相关检查在临床医学及健康管理领域中的重要性日渐提升。由此,承载医学影像信息的技术及载体也成为业界研究的重要课题。近年来,随着计算机技术、网络技术和移动智能终端的重大进步,云胶片作为一种崭新的技术手段受到业界的广泛关注。文章基于数字影像(云胶片)的诞生背景,阐述其相关概念内容,介绍其主要构成。针对目前医院使用的干式胶片现状,及新型冠状病毒肺炎疫情期间数字
摘 要:针对传统变电站钢筋混凝土中低强混凝土配筋柱抗震性能差的问题,提出用玄武岩纤维复合材料(BFRP)对变电站低强混凝土配筋柱进行加固。分析了轴压比,剪跨比和加固方式对混凝土配筋柱抗震性能影响。结果表明:未经BFRP布加固的试件破坏形态主要为脆性弯剪,极限位移为40mm。经过BFRP布加固后,破坏形态转为弯曲破坏,极限位移增长至120mm。在同等BFRP布包裹的情况下,全包加固方式承载力和对抗震
摘 要:为适应节能减排和海绵城市建设的多重需求,文章将探究建筑垃圾废弃混凝土再生集料的组合设计方法、路用性能。通过试验方法,以不同掺量的建筑废弃混凝土再生集料进行透水混凝土的组合设计,成型试件放置规定龄期,测定排水、压缩强度、抗冲刷等性能。结果表明,同等级配和实验条件下,建筑垃圾废弃混凝土再生集料较天然集料的路用性能更优,随着掺量增加,其排水性能增加,但7d无侧限压缩强度、抗冲刷等性能随着再生集料
摘 要:随着长庆油田的进一步开发,面临着低产低效油井所占比例越来越大,以及常规油田剩余油开采再处理的针对性和有效性较差,井间剩余油量大等技术问题不斷出现。因此如何解决好低渗透油田剩余油开采再处理技术研究与应用是确保长庆油田提质增产的关键。在我们的研究工作中,提出了径向缝网压裂技术和深部封堵技术。同时,研制出了相应的产品,包括变粘度转向酸、微膨胀高强度堵剂和暂堵剂(油溶性、水溶性、防垢)。目前这两项