【摘 要】
:
首先,对深度强化学习(DRL)的兴起与发展进行了回顾.然后,将用于高维连续动作空间的深度强化学习算法分为基于值函数近似的算法、基于策略近似的算法以及基于其他结构的算法3
论文部分内容阅读
首先,对深度强化学习(DRL)的兴起与发展进行了回顾.然后,将用于高维连续动作空间的深度强化学习算法分为基于值函数近似的算法、基于策略近似的算法以及基于其他结构的算法3类,详细讲解了深度强化学习中的最新代表性算法及其特点,并重点阐述了其思路、优势及不足.最后,结合深度强化学习算法的发展方向,对使用深度强化学习方法解决机器人学问题的未来发展趋势进行了展望.
其他文献
《中国经济周刊》日前报道称,“北戴河百余家疗养院一年闲置大半,国家每年补贴数亿”,引起媒体和公众的关注。批评的焦点是,疗养院是一块“飞地”,“只为少数人服务”,“浪费国家资
夏日,骄阳似火,气温较高,给室外体育课教学带来一定困难。为收到预期的教学效果,须注意如下几点: 一、要调整好授课时间。体育教研组要主动与教务处联系,尽量使体育课不排在
随着市场经济的发展,医院的改革正在不断地深化、完善和规范,从人事制度到运行机制,从纠正行业不正之风到规范各项管理,从社会效益到经济效益,可说是颇有成效或已具规模。特
面向空间在轨装配任务提出基于优先级的多机器人协同运动规划方法。多机器人系统包括一个七自由度操作机器人和一个13自由度超冗余照明机器人。采用两种规划方法规划高优先级
随着信息技术的发展,多媒体计算机、网络技术与教育的有机整合,促进了教学理念的转变;在网络环境下开发与利用网络资源实施有效教学,对教学方式与教学模式进行了变革,从而进一步调
建议关于悬臂深梁自重应力分析的另一解法,克服文「1」中悬臂深梁自重应力分析方法存在的缺陷,弥补了文献「1」中所述方法之不足,使悬臂深梁自重应力分析的方法更加完善。
党的十九大做出了我国进入中国特色社会主义新时代的重大论断。在新的历史阶段,会计工作也面临着新形式、新任务、新挑战。2018年4月19日,为加强会计诚信建设,建立健全会计人
随着改革开放步入40年,中国的对外开放程度不断加深,中国与全球经济的联系也越发密切。尤其在近年美国持续性加息的国际经济大环境下,中国受到来自美国等主要国际经济体的货
嫦娥五号飞行试验器是我国首个采用绕月自由返回轨道飞行的航天器,为了提高其自主运行能力,嫦娥五号飞行试验任务的星上软件需要在出现入轨大偏差情况下,具备在轨自主应急制
卢卡奇认为马克思主义哲学的本质是辩证法,其核心范畴是具体的总体.一方面他并不认同恩格斯对自然界的辩证理解,从而认为马克思的辩证法是理解社会和历史的唯一科学的方法;另