基于深度Q网络的仿人机器人步态优化

来源 :计算机与现代化 | 被引量 : 0次 | 上传用户：lymoso

【摘要】

：

为实现仿人机器人快速稳定的行走,在满足有效参数组合的条件下,提出一种基于深度强化学习的步行参数训练算法以优化机器人步态。首先,从环境中捕获机器人步态模型参数作为DQN

【作者】

：

袁雯刘惠义

【机构】

：

河海大学计算机与信息学院

【出处】

：

计算机与现代化

【发表日期】

：

2019年4期

【关键词】

：

仿人机器人深度强化学习 DQN 步态优化 RoboCup3D

【基金项目】

：

江苏省水利厅科技计划项目(2017003ZB)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为实现仿人机器人快速稳定的行走,在满足有效参数组合的条件下,提出一种基于深度强化学习的步行参数训练算法以优化机器人步态。首先,从环境中捕获机器人步态模型参数作为DQN的输入;然后,用DQN来拟合机器人行走产生的状态-动作值函数;最后,通过动作选择策略选择当前机器人执行的步态动作,同时产生奖励函数达到更新DQN的目的。选择NAO仿真机器人为实验对象,在RoboCup3D仿真平台上进行实验,结果证明在此算法下,NAO仿人机器人可以获得稳定的双足步行。

其他文献

面向电磁—机械耦合的异构仿真系统瞬态场分析技术及应用

随着产品规模及复杂度增加,越来越呈现出多领域、强耦合的特点,产品开发难度大、周期长、成本高,整个产品的设计工作已经难以由设计者单独来完成,而是变成一个具备多学科性和

学位

异构仿真系统瞬态场顺序耦合刚柔耦合多体动力学电磁学低压断路器高速电梯

株洲市国库集中收付制度改革研究

我国长期以来财政性资金的缴库和拨付是通过征收机关和预算单位设立多重账户分散进行的。但是,随着我国社会主义市场经济体制的逐步建立和公共财政管理框架的初步构建,它的弊

学位

公共财政国库集中收付株洲市

基于E-Bank Server的银企互联平台设计与实现

信息技术的发展推动了企业资源计划系统、决策支持系统、乃至于商务智能系统应用需求的迅速提升。但随着企业对ERP等管理信息系统应用的逐步深入,企业与银行之间缺少信息共享

学位

银企互联基于XML的EDI模型面向服务软件架构SAP

卫星通信地球站天线测试系统的研究与设计

卫星通信地球站要依靠无线电波来工作,需要实现无线电波的辐射和接收,我们把辐射和接收无线电波的装置称为“天线”。一副卫星通信地球站天线的性能好坏,在很大程度上决定了

学位

卫星通信地球站测试系统天线方向图可编程仪表标准命令频谱分析仪

承德西山百果庄园规划研究

生态观光农业旅游在我国经过20多年的发展已经成为旅游者观光、休闲、度假的主要旅游形式之一。随着农业旅游的发展,各级政府将其看作是提高农民收入、改善农村面貌的动力,于

学位

农业观光园规划设计生态旅游可持续发展

城巿社区功能演变背景下的人力资源配置研究

改革开放以来,随着社会主义市场经济体制的不断完善和单位体制的日趋瓦解,城市社区承担了越来越多原来由政府和企事业单位承担的社会管理和社会服务职能,城市社区的功能不断

学位

城市社区人力资源配置功能演变潮鸣街道

浅谈企业培训的设计与实施

文章简要论述了企业培训的理论研究和发展状况,对国内外的企业培训现状进行了分析,并针对企业的实际情况,对企业培训的内容、计划、实施方法进行了探讨.

期刊

企业培训设计与实施

目前刑事抗诉工作的形势和任务

期刊

刑事抗诉案件质量刑事审判监督办案质量审判监督程序抗诉立案侦查检察工作主题抗诉意见刑事抗诉案件公诉工作改判率法律监督职能

共享领导风格对员工创新行为的影响机制研究

创新已经成为二十一世纪经济增长与发展的主旋律,它决定着一个国家或组织在未来发展中能否保持可持续的竞争优势。在知识经济时代,知识、信息和人力资本成为经济发展首要推动

学位

共享交易型领导共享变革型领导共享授权型领导心理授权员工创新行为

基于Hadoop的SVM的设计和实现

支持向量(Support Vector Machine, SVM)是数据挖掘中基于统计学习的分类算法,其优点体现在很少出现过度拟合、对于特征过多造成维数灾难不明显、收敛解是全局最优解以及灵活

学位

分类算法支持向量机大规模数据集处理Hadoop

基于深度Q网络的仿人机器人步态优化

其他学术论文