双足机器人步态控制的深度强化学习方法

来源 :计算机集成制造系统 | 被引量 : 0次 | 上传用户:a65681361
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对双足机器人行走过程中的步态稳定控制问题,提出一种改进深度Q网络的深度强化学习方法。首先,将深度Q网络算法与确定性策略梯度相结合,提出用修正Double-Q网络优化操作—评论网络的评论网络,给出一种改进的深度Q网络;然后,建立双足机器人连杆模型,在常规的平整路面上将改进的深度Q网络用于作为智能体的双足机器人进行步态控制训练。MATLAB仿真结果表明,与深度Q网络和深度确定性策略梯度算法相比,所提算法有更好的训练速度且其回报曲线具有良好的平滑性。在CPU训练下,经过20 h左右深度强化学习能够完成智能体训
其他文献
云计算被广泛地应用到各行各业,并促进了社会的稳定发展,但是由于网络本身所具有的虚拟性以及开放性的特征,不可避免地导致问题的发生,为此,要认识到所存在的问题,并针对性的分析解决,从而更好地发挥云计算的作用和价值。本文先分析当前云计算运用当中所存在的问题,接着分析云计算信息安全问题的解决策略,以此更好地发挥云计算的作用。
目的:评价1565 nm M22-ResurFx非剥脱点阵激光(NAFL)联合异维A酸治疗痤疮的疗效和安全性。方法:回顾2015年-2017年该院皮肤科收治的60例中度痤疮患者,将其分为3组:单独口服异维A酸组(20例);单独使用1565 nm非剥脱点阵激光治疗组(20例);联合治疗组(20例):口服异维A酸联合1565 nm非剥脱点阵激光治疗3次。收集每次治疗前、后照片,并使用Visia和Antera 3D誖系统评估治疗前、后患者痤疮的改善程度和治疗后不良反应。结果:治疗后3组患者痤疮均有不同程度的改善
四川省和重庆市高强度的产业关联是实现成渝地区双城经济圈经济增长的重要路径。运用投入产出分析方法对四川省和重庆市经济发展的区域内乘数效应、区域间溢出效应和反馈效应进行静态分析与比较静态分析。研究表明:两地区区域内产业联系强度小幅下降,而区域间产业联系强度大幅上升;川渝地区在经济发展中存在产业同质竞争和市场分割。因此,两地应建立合作决策机制,打造产业配套体系,依托各自优势进行协同发展,尤其要使高技术产业形成完整可靠的区域产业链,同时加快四川省和重庆市毗邻地区市场一体化试验区建设,推进川渝地区市场一体化。