迈进高维连续空间:深度强化学习在机器人领域中的应用

来源 :机器人 | 被引量 : 0次 | 上传用户：gaolch003

【摘要】

：

首先,对深度强化学习(DRL)的兴起与发展进行了回顾.然后,将用于高维连续动作空间的深度强化学习算法分为基于值函数近似的算法、基于策略近似的算法以及基于其他结构的算法3

【作者】

：

多南讯吕强林辉灿卫恒

【机构】

：

陆军装甲兵学院;

【出处】

：

机器人

【发表日期】

：

2004年期

【关键词】

：

深度学习强化学习机器人学

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

首先,对深度强化学习(DRL)的兴起与发展进行了回顾.然后,将用于高维连续动作空间的深度强化学习算法分为基于值函数近似的算法、基于策略近似的算法以及基于其他结构的算法3类,详细讲解了深度强化学习中的最新代表性算法及其特点,并重点阐述了其思路、优势及不足.最后,结合深度强化学习算法的发展方向,对使用深度强化学习方法解决机器人学问题的未来发展趋势进行了展望.

其他文献

解决“疗养院”闲置有多难

《中国经济周刊》日前报道称，“北戴河百余家疗养院一年闲置大半，国家每年补贴数亿”，引起媒体和公众的关注。批评的焦点是，疗养院是一块“飞地”，“只为少数人服务”，“浪费国家资

报纸

夏季体育教学点滴谈

夏日,骄阳似火,气温较高,给室外体育课教学带来一定困难。为收到预期的教学效果,须注意如下几点: 一、要调整好授课时间。体育教研组要主动与教务处联系,尽量使体育课不排在

期刊

体育教学体育课

加大改革力度促进疗养事业快速发展

随着市场经济的发展,医院的改革正在不断地深化、完善和规范,从人事制度到运行机制,从纠正行业不正之风到规范各项管理,从社会效益到经济效益,可说是颇有成效或已具规模。特

期刊

疗养医学管理学

空间多机器人协同运动规划研究

面向空间在轨装配任务提出基于优先级的多机器人协同运动规划方法。多机器人系统包括一个七自由度操作机器人和一个13自由度超冗余照明机器人。采用两种规划方法规划高优先级

期刊

在轨装配多机器人协同运动规划超冗余机器人

浅析网络环境下教学理念与方式的变革

随着信息技术的发展，多媒体计算机、网络技术与教育的有机整合，促进了教学理念的转变；在网络环境下开发与利用网络资源实施有效教学，对教学方式与教学模式进行了变革，从而进一步调

期刊

网络环境网络资源教学理念教学变革

悬臂深梁的自重应力

建议关于悬臂深梁自重应力分析的另一解法，克服文「１」中悬臂深梁自重应力分析方法存在的缺陷，弥补了文献「１」中所述方法之不足，使悬臂深梁自重应力分析的方法更加完善。

期刊

悬臂深梁自重应力解法完善

会计诚信体系建设和失信惩戒机制研究

党的十九大做出了我国进入中国特色社会主义新时代的重大论断。在新的历史阶段,会计工作也面临着新形式、新任务、新挑战。2018年4月19日,为加强会计诚信建设,建立健全会计人

期刊

会计诚信失信惩戒体系建设

美国紧缩性货币政策冲击对中国宏观经济的影响——基于符号约束SVAR模型的研究

随着改革开放步入40年,中国的对外开放程度不断加深,中国与全球经济的联系也越发密切。尤其在近年美国持续性加息的国际经济大环境下,中国受到来自美国等主要国际经济体的货

期刊

美国货币政策冲击中国宏观经济符号约束SVAR贸易渠道汇率渠道金融渠道

绕月自由返回轨道的应急自主制导算法

嫦娥五号飞行试验器是我国首个采用绕月自由返回轨道飞行的航天器,为了提高其自主运行能力,嫦娥五号飞行试验任务的星上软件需要在出现入轨大偏差情况下,具备在轨自主应急制

期刊

自由返回轨道自主故障制导

卢卡奇早期对马克思主义哲学本质的探索

卢卡奇认为马克思主义哲学的本质是辩证法,其核心范畴是具体的总体.一方面他并不认同恩格斯对自然界的辩证理解,从而认为马克思的辩证法是理解社会和历史的唯一科学的方法;另

期刊

卢卡奇辩证法具体的总体物化

迈进高维连续空间:深度强化学习在机器人领域中的应用

与本文相关的学术论文