基于强化学习的类人机器人步行参数训练算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户：szRUIZHIZI

【摘要】

：

基于轨迹规划的类人机器人在合理的参数组合下可实现快速稳定的行走。为优化步行参数，提出一种基于强化学习的步行参数训练算法。对步行参数进行降阶处理，利用强化学习算法优化

【作者】

：

梁志伟朱松豪

【机构】

：

南京邮电大学自动化学院,东南大学复杂工程系统测量与控制教育部重点实验室

【出处】

：

计算机工程

【发表日期】

：

2012年8期

【关键词】

：

类人机器人步行参数强化学习奖惩机制 humanoid robot walking parameter reinforcement learning rew

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于轨迹规划的类人机器人在合理的参数组合下可实现快速稳定的行走。为优化步行参数，提出一种基于强化学习的步行参数训练算法。对步行参数进行降阶处理，利用强化学习算法优化参数，并设置奖惩机制。在Robocup3D仿真平台上进行实验，结果证明了该算法的有效性。

其他文献

利率市场化背景下我国商业银行的利率风险衡量

伴随着我国不断加快的利率市场化,利率风险管理的问题越来越突出,加强利率风险管理也成为了商业银行的迫切要求。利率市场化不仅是对我国整个金融体系的运行实现市场化,提高

学位

利率市场化商业银行利率风险衡量

关于“德奥艺术歌曲”概念形成的三点讨论

提到艺术歌曲，人们常会联想到这么一个概念———“德奥艺术歌曲”。最初把此类现象理解为语言的习惯和偶然性巧合的产物，但是随着知识的增长，发现很多音乐史类的书会把德国和奥

期刊

艺术歌曲德奥音乐舒伯特神圣罗马帝国

针对全同态加密体制的反馈攻击

全同态加密体制能够在不解密的条件下对密文进行任意的函数运算，是解决云计算中数据隐私保护难题的关键技术。构造全同态加密方案的核心是有效控制密文同态运算中的噪声增长，稀

期刊

全同态加密云计算稀疏子集和问题解密谕示反馈攻击预计算Fully Homomorphic Encryption（FHE） cloud computin

加强金融机构人力资源管理的策略

本文对现阶段金融机构人力资源管理工作中存在的问题进行了简单的分析,针对金融机构加强人力资源管理工作的策略进行了深入的研究,结合本次研究,提出了一些建议看法,希望对金

期刊

金融机构人力资源管理加强策略

河流冰期储冰量的估算

以汾河上游静乐水文站1975～1976年冰期河槽结冰储存量计算为例,论述了如何运用水量平衡原理,计算一般河流冰期结冰存储量、受结冰影响减少径流天数和期间平均减少流量,以期更

期刊

冰期河流储冰量径流量汾河

浅谈初中英语课堂的有效教学措施

初中阶段作为一个过渡时期，是学生逐渐成长与成熟的时期。初中阶段的英语教师要协助学生们为以后继续学习英语打好基础。因此，如何在有限的45分钟里创造最大的教学效益，是值得每

期刊

英语课堂效度措施

沪深300股指复制策略研究

股指期货为股票现货市场的交易提供了一种风险对冲机制,有效的分散了投资者单向持有的风险、降低了股市不合理的价格波动、增加了套利交易的品种和机会,使得交易的风险更小、

学位

沪深300股指遗传算法支持回归机复制策略

基于实际链路数据速率模型的D2D通信研究

关于设备与设备（D2D）通信的研究大多以网络吞吐量最大化为目的,忽略D2D链路模式选择造成的巨大能耗。为此,基于实际链路数据速率模型,将正交频分多址无线网络的D2D问题建模为非

期刊

设备与设备通信实际链路数据速率模型非线性整数规划模式选择功耗Device-to-Device（D2D） communication practical

库容综合测量系统中的数据处理

介绍了利用ＧＰＳ等先进技术测库容数据处理中几个关键问题。具体阐述了上述各项系统误差的影响规律及其消减模型，在生产中具有很好的实用价值。

期刊

水库测量库容综合测量系统数据处理reservoir survey general surveying system of reservoir volu

基于加权最小二乘法的美式期权正则对冲

本文主要研究美式期权的对冲。Delta是期权对冲参数中的一个重要参数。期权对冲是衍生品定价理论和实践中的一个重要课题,因为在现实的金融市场中,衍生产品的风险管理与对冲

学位

最小二乘法正则定价法美式期权Heston模型对冲delta

基于强化学习的类人机器人步行参数训练算法

与本文相关的学术论文