基于值函数和策略梯度的深度强化学习综述

来源 :计算机学报 | 被引量 : 0次 | 上传用户:lwsea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为人工智能领域的热门研究问题,深度强化学习自提出以来,就受到人们越来越多的关注。目前,深度强化学习能够解决很多以前难以解决的问题,比如直接从原始像素中学习如何玩视频游戏和针对机器人问题学习控制策略,深度强化学习通过不断优化控制策略,建立一个对视觉世界有更高层次理解的自治系统。其中,基于值函数和策略梯度的深度强化学习是核心的基础方法和研究重点。本文对这两类深度强化学习方法进行了系统的阐述和总结,包括用到的求解算法和网络结构。首先,概述了基于值函数的深度强化学习方法,包括开山鼻祖深度Q网络和基于深度Q网络的各种改进方法。然后介绍了策略梯度的概念和常见算法,并概述了深度确定性策略梯度、信赖域策略优化和异步优势行动者-评论家这三种基于策略梯度的深度强化学习方法及相应的一些改进方法。接着概述了深度强化学习前沿成果阿尔法狗和阿尔法元,并分析了后者和本文概述的两种深度强化学习方法的联系。最后对深度强化学习的未来研究方向进行了展望。
其他文献
本文从突破传统路径、借鉴企业经营管理、创新机制体制等三个方面进行阐述,为有效提升人力资源综合管理效能,促进人力资源管理模式转变,加快推进军队医院学科人才等全面建设
目的探讨皮瓣下引流管对乳癌根治术后皮下积液的防治效果。方法病人行乳癌根治术后,术中常规仔细操作,并采用皮瓣下负压引流,弹力绷带加压包扎,观察病人皮下积液的发生情况。结果
急诊科的特点是患者多、病情复杂、起病突然、变化快。急诊工作的性质决定了急诊分诊工作要做到忙而不乱,快而准。分诊工作的优劣,直接影响到急诊工作的医疗、护理质量。分诊工
建筑工程施工中,水暖电安装是一项重要的工作。在建筑施工中,必须加强对水暖电安装质量的控制,保证水暖电安装质量。本文分析了建筑工程水暖电安装中常见的质量问题,总结了有
介绍多层螺旋CT的发展及其在急性胸痛病因鉴别诊断中的应用,特别是在鉴别对严重危及患者生命安全的急性冠状动脉综合征、肺动脉栓塞、主动脉夹层疾病上的突出优势,具有无创、
给出一种表达加权有向图的数结构,它使得对此有向图进行“插入”操作后,只需进行O(n^2)时间的维护工作,就可使得每对结点间的最短路径迅速地得修整。
圆曲线小半径掘进是盾构掘进控制的难点,盾构掘进时隧道轴线控制难度较大,纠偏困难。小半径转弯的难点主要从盾构机掘进参数、盾构设备、管片选型和拼装等施工措施来解决,特
利用Picard-Fuchs方程法得到了Abelian积分I(h)=∮_(Г_h)g(x,y)dx-f(x,y)dy的零点个数的上界,其中Γ_h是由H(x,y)=x~2+y~2+2xy+a(x~4+y~4)=h定义的闭轨线,a〉0,h∈(0,+∞),f(x,y)和g(x,y)是关于x和y
通过对军队医院聘用人员的管理机制、考核机制、激励机制等问题分析,探讨加强和规范聘用制人员队伍建设,激发聘用人员工作热情和创新力,实现医院建设向依托军队资源和社会资
企业构建安全风险分级管控和隐患排查治理双重预防机制是国家对于安全生产的战略性部署,也是遏制重特大事故的长效机制,中小危险化学品企业存在其特有的生产经营特点,是事故