基于解耦状态表征的深度强化学习算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:wcj_lp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近,深度强化学习在解决序贯控制问题上成果颇丰。在现实世界中,环境状态的表征方式往往是智能体当前的视觉信息,这也是强化学习任务中一类经典环境的做法——以图像帧为状态表征。利用神经网络提取特征的能力以及泛化能力,深度强化学习在一些以图像为状态表征的问题上表现突出。但高维状态空间下深度强化学习算法的大多数应用仍需要进行大量试验才能获得竞争性结果。如果智能体从高维度的观察中学习到有用的语义表示,那么基于这些语义特征的控制算法将大大提高数据效率。解耦表征是将高维像素特征映射到低维隐变量的同时,能够将原始图像中的高阶特征映射到隐变量不同的维度。本论文提出了一种基于解耦表征的强化学习算法,能够提取智能体当前状态下与任务密切相关的高阶特征,再将这些特征信息作为强化学习策略的输入,来达到提升采样效率的效果。论文首先研究了环境中不随时间改变的特征,并利用此信息对隐变量添加约束,使编码生成的隐变量能够包含一定的语义结构特征。策略网络再依据高阶特征进行决策,从而提升强化学习的训练效率。论文在多个任务下通过实验证明了基于解耦表征的强化学习算法能够提升算法的采样效率和可解释性。
其他文献
社团发现任务在网络分析中占有重要地位,大多数方法是依据网络中的拓扑结构将各个节点划分到不同社团。虽然已经有很多种方法来解决这个问题,但这些方法假设给定的网络是完全的,即网络中不存在边的缺失。近期一些针对边缺失网络的社团发现方法有被提出,大体分为两个类别。一种是考虑利用链接预测或网络补全方法将缺失边正确地预测出来,然后在补全网络上进行社团发现。第二种是基于网络生成的思想,即考虑将与缺失边有关的影响因
学位
【研究目的】黑龙江争光金矿床位于兴安地块东缘嫩江—黑河北东向断裂带西北侧的奥陶纪多宝山岛弧带上。本文通过对主成矿期的矿石样品研究,探讨了成矿流体的来源。【研究方法】选择9件主成矿期的黄铁矿和方铅矿进行了系统研究,测定了He、Ar和S同位素组成。【研究结果】其含金石英脉中黄铁矿和方铅矿的流体包裹体~3He/~4He=1.95×10-6~5.03×10-6,40Ar/36Ar=349.1~453.9。
期刊
近年来,三维模型广泛应用于众多领域,数据量急剧增长,产生了大量的三维模型数据集。但是,其中仅有少数面向学术研究的数据集具备完善的标签信息,而在开放环境下,受限于高昂的人工标注成本,大部分三维模型数据集通常缺少标签信息,一般表现为两种场景:1)无标签场景,即数据集中没有带标签样本;2)小样本场景,即每个类别中仅有极少量带标签样本。传统三维模型检索和分类方法依赖特定闭合数据集的大量带标签样本,导致缺乏
学位
随着硬件设备的发展,人们对于图像质量的追求越来越高。图像质量提升成为人们关注的焦点,各种细分领域的图像增强技术也应运而生。比特深度增强技术通过重构图像最低有效位,细化色彩精度,提供更加生动细腻的视觉体验。然而,由于这是一个新兴方向,不同算法重构的高比特图像中会存在不同程度的颜色偏移、伪轮廓或纹理过模糊等瑕疵,影响主观视觉感受。对于这类特殊失真,现有通用型质量评价算法并不适用,亟需有一种有效准确的专
学位
为探究界面层对SiCf/SiC复合材料性能的影响,选用国产第3代SiC纤维,通过先驱体浸渍裂解工艺制备了热解碳(PyC)、热解碳/碳化硅(PyC/SiC)、氮化硼(BN)、氮化硼/碳化硅(BN/SiC)4种界面层的三维机织角联锁SiCf/SiC复合材料。在此基础上,结合声发射技术对复合材料进行常温断裂韧性测试,并利用扫描电镜对其细观损伤模式进行评价。结果表明:界面层对三维机织角联锁SiCf/SiC
期刊
三维模型的多视图信息能够全面地表征物体的视觉特性和潜在的空间结构信息。随着三维模型数据的飞速增长,如何对三维模型实现智能的分类与检索,是当前学术界和工业界的研究热点。目前,传统的三维模型分类方法需要大量的有标记的数据。然而,只有部分用于学术研究的三维模型数据集有详细的人工标注。因此,如何在有人工标记的训练对象很少的情况下实现对三维模型的有效分类,是一个亟待解决的问题。此外,不同的构建方式会使三维模
学位
随着工业4.0概念的提出,信息化技术被广泛应用到工业生产中,制造业正在向智能化转型。在智能化生产中,位置是一种不可或缺的信息,高精度室内定位技术的市场需求日益增长。基于计算机视觉的定位技术具有精度高、稳定性好、无需额外设备的优点,是提供室内定位服务的理想方案。本论文提出一种基于全景相机的室内库房定位系统,用于为AGV小车提供高精度室内定位服务,主要贡献包括:(1)设计了一种定制标签作为定位锚点,使
学位
遥感影像因具有分辨率高、细节清晰、内容丰富等特点而被广泛使用在土地覆盖监测、森林覆盖监测、湿地资源监测等任务中。在遥感影像中,地表有用信息常被云雪覆盖,这些云雪占用传输系统大量的存储空间和传输带宽,干扰遥感影像光谱。因此对遥感影像云雪检测十分必要。由于云和雪在影像上相近的光谱分布给区分云和雪增加了难度,遥感影像云雪分离检测一直难以实现。为了实现对遥感影像中的云雪进行高精度检测,本文基于卷积神经网络
学位
主题模型广泛应用于大规模文档集的信息挖掘中,存在计算过程复杂导致优化模型参数困难、输出主题语义不清晰导致对理解语料库没有帮助等问题。人可操纵的主题建模(HSTM)技术能够解决这些问题,改善主题的质量。HSTM技术遵循“人在回路”的迭代式工作流程,允许主题模型与用户输入的约束相结合,控制模型收敛方向,从而得到符合用户期望的高质量的结果。LDA作为现今使用最广泛的主题建模技术,具有适用于长文本和在数据
学位
为提升玻璃纤维增强复合材料的层间断裂韧性,采用模压成型工艺制备了玻璃短纤维(SGF)增韧乙烯基树脂(GF/VE)复合材料层压板,并对其进行I型断裂韧性(GIC)、拉伸性能和弯曲性能测试。结果表明,SGF层间铺入明显提升了复合材料的GIC,其中经硅烷偶联剂处理的SGF长度为12 mm,面密度为60 g/m~2时,增韧效果最佳,复合材料GIC从0.717 kJ/m~2增加到1.217 kJ/m~2,提
期刊