【摘 要】
:
为实现仿人机器人快速稳定的行走,在满足有效参数组合的条件下,提出一种基于深度强化学习的步行参数训练算法以优化机器人步态。首先,从环境中捕获机器人步态模型参数作为DQN
【基金项目】
:
江苏省水利厅科技计划项目(2017003ZB)
论文部分内容阅读
为实现仿人机器人快速稳定的行走,在满足有效参数组合的条件下,提出一种基于深度强化学习的步行参数训练算法以优化机器人步态。首先,从环境中捕获机器人步态模型参数作为DQN的输入;然后,用DQN来拟合机器人行走产生的状态-动作值函数;最后,通过动作选择策略选择当前机器人执行的步态动作,同时产生奖励函数达到更新DQN的目的。选择NAO仿真机器人为实验对象,在RoboCup3D仿真平台上进行实验,结果证明在此算法下,NAO仿人机器人可以获得稳定的双足步行。
其他文献
随着产品规模及复杂度增加,越来越呈现出多领域、强耦合的特点,产品开发难度大、周期长、成本高,整个产品的设计工作已经难以由设计者单独来完成,而是变成一个具备多学科性和
我国长期以来财政性资金的缴库和拨付是通过征收机关和预算单位设立多重账户分散进行的。但是,随着我国社会主义市场经济体制的逐步建立和公共财政管理框架的初步构建,它的弊
信息技术的发展推动了企业资源计划系统、决策支持系统、乃至于商务智能系统应用需求的迅速提升。但随着企业对ERP等管理信息系统应用的逐步深入,企业与银行之间缺少信息共享
卫星通信地球站要依靠无线电波来工作,需要实现无线电波的辐射和接收,我们把辐射和接收无线电波的装置称为“天线”。一副卫星通信地球站天线的性能好坏,在很大程度上决定了
生态观光农业旅游在我国经过20多年的发展已经成为旅游者观光、休闲、度假的主要旅游形式之一。随着农业旅游的发展,各级政府将其看作是提高农民收入、改善农村面貌的动力,于
改革开放以来,随着社会主义市场经济体制的不断完善和单位体制的日趋瓦解,城市社区承担了越来越多原来由政府和企事业单位承担的社会管理和社会服务职能,城市社区的功能不断
文章简要论述了企业培训的理论研究和发展状况,对国内外的企业培训现状进行了分析,并针对企业的实际情况,对企业培训的内容、计划、实施方法进行了探讨.
创新已经成为二十一世纪经济增长与发展的主旋律,它决定着一个国家或组织在未来发展中能否保持可持续的竞争优势。在知识经济时代,知识、信息和人力资本成为经济发展首要推动
支持向量(Support Vector Machine, SVM)是数据挖掘中基于统计学习的分类算法,其优点体现在很少出现过度拟合、对于特征过多造成维数灾难不明显、收敛解是全局最优解以及灵活