基于多目标强化学习的稀疏奖励问题研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:whitetooth
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度强化学习技术在各个领域广泛应用,为了增强其泛化能力提出了多目标强化学习算法,然而多目标强化学习算法仍然面临着大多数强化学习算法都会遇到的稀疏奖励问题,算法在稀疏奖励环境下难以获得有效的奖励,样本利用效率非常低。HER(Hindsight Experience Replay)算法的提出从失败样本中获取经验,一定程度上提高了样本利用率。为了进一步提高样本利用效率,本文将HER算法重标记得到的经验用作专家示例,使用了模仿学习和课程学习的思想对HER算法进行优化,旨在提升样本的利用效率,并使用任务成功率作为实验的评价指标。本文主要贡献如下:首先,将HER算法目标重标记阶段新产生的经验用作专家示例,利用这些专家示例进行学习,提出了Lf HER算法。在DQN(Deep Q Network)算法上借鉴DQf D(Deep Q-learning from Demonstrations),在损失函数中加入监督损失项;对于DDPG(Deep Deterministic Policy Gradient)算法,在Actor网络中加入行为克隆损失项,在Critic网络中加入监督损失项和Q-filter。实验结果表明,本文提出的Lf HER算法比HER算法收敛速度快得多,大大提高了样本利用效率。然后,考虑到HER算法的目标选择策略是随机的,一定程度上限制了算法能力的上限,本文借鉴了CHER(Curriculum-guided HER)算法的思想,设计了评估目标的度量,将与期望目标的相似度和所选目标的多样性加权求和,并根据该度量制定新的目标选择策略。实验表明,CHER算法在本课题的实验环境下均表现得比HER算法更好。最后,本文使用CHER算法改进Lf HER算法,提出了Lf CHER算法。不同于Lf HER算法,Lf CHER算法在目标选择时不再是随机采样,而是根据设计的评估度量,选择对当下阶段更有利的目标进行重标记和模仿学习。实验结果表明,本文提出的Lf CHER算法在本课题的实验环境下均表现得比Lf HER算法效果好,训练速度更快、稳定性更好,且需要的采样数量仅为Lf HER的四分之一。
其他文献
自然场景中的文本识别已经成为计算机视觉和模式识别领域的活跃研究领域。完整的识别过程包含场景文本检测和场景文本识别,即从图片中检测出文本实例,再用识别网络识别,本文只研究识别过程。本文以自然场景中低质量文本图像作为研究对象,针对不同的低质量文本图像,分别提出了三个模型来解决对应的问题。基于超分辨模块的场景文本识别模型。考虑到光学退化、拍摄时的抖动等原因,导致了字符形状的模糊,产生了低分辨率的文本图像
学位
超分辨率是计算机视觉中的一种经典技术。超分辨率技术指低分辨率的图像或者图像序列通过一系列方法,恢复出高分辨率图像。在很多领域例如监控、数字高清和医学影像等领域有很广泛的应用。超分辨率技术分为两种:单幅图像的超分辨率(SISR)和多帧视频/多图的超分辨率(Multi-frame Super Resolution)。SISR是一个逆问题,在重建高分辨率图像时,需要通过一个先验信息进行规范化约束。在以往
学位
无线Mesh网络(Wireless Mesh Network,WMN)是一种多跳网络,具有组网灵活、网络覆盖率高等特点。信道分配与路由协议的优化,均能提高网络性能,是WMN中两个至关重要的研究内容。在多接口多信道无线Mesh网络中,节点接口数量和信道数量通常是不等的,因此本文将解决在满足网络连通的情况下实现负载均衡,同时考虑信道切换过于频繁导致网络效率和吞吐量的下降问题。路由协议方面,由于传统路由
学位
现如今,各个领域中的传感器、信号捕捉器等每时每刻都在捕捉时间序列数据,时间序列数据呈爆炸式增长。随着数据量的不断增长,时序数据库应运而生。在时序数据库中,数据压缩是其中最重要的组件之一,直接关系到存储和查询的效率。然而现有的时序数据库压缩算法面临着很多问题,比如在压缩数据的压缩比上表现不够好,不能适应大规模数据存储需求;数据压缩方案的灵活性差,不能一直保持良好的压缩比,不同领域的数据和不同数据模式
学位
随着科技的不断进步和发展,产生了越来越多的文本数据,对于文本数据的处理已经是大势所趋。近年来,文本数据分类技术迅速发展,面对海量新闻数据和舆情数据等其他文本数据的增多,文本分类方法也在不断创新。然而不同的文本数据在结构上存在很大差异,并且海量文本数据中会存在丢失和语义不完整的情况。文本数据具有语义表达不清楚、维度较高、数据内容稀疏的特点。传统的文本分类方法往往从词频方向考虑,而不考虑语义方面,使得
学位
当前社会经济发展的同时环境问题更加突出,工业、采矿业等的发展带来严重的环境污染。多环芳烃(PAHs)是有机污染物中的典型代表之一,可以造成土壤污染,大量农作物减产,危害人类健康。因此,PAHs对植物生理机制的影响已成为生态学研究热点之一。苯并芘(Benzopyrene,B[a]P)是PAHs中毒性最大的强烈致癌物,其化学性质稳定,广泛存在于水、土壤、大气中,对动物的内脏器官和神经系统造成严重损伤,
学位
生物多样性是地球生命的基础,也是人类社会赖以生存和发展的基础。正确认识河流生物多样性特征及规律,可以为河流生境改善及河流生态修复工作提供强有力的支持,具有重要的现实意义。本研究采用现场调查与实验室分析相结合的方法,开展了辽河流域植物多样性、浮游生物多样性和脊椎动物多样性调查研究,并对其分布规律进行了分析,为辽河流域生态功能恢复与生物多样性保护提供科技及数据支撑。辽河流域植物多样性调查研究结果表明:
学位
控制力矩陀螺(Control Moment Gyro,CMG)是现代航天器用于姿态机动控制的重要设备,具有耗能低、输出力矩大、精度高等优点,其健康状态和可靠性直接影响航天器的在轨寿命。CMG的各部件监测数据随航天器的在轨遥测数据下传,存在数据采样率低、数据丢失和数据高延迟导致实时性差等问题。近年来,随着航天数据的大量积累和神经网络技术的发展,利用神经网络进行时间序列数据插补成为研究的热点之一。数据
学位
氧氟沙星具有良好的抗菌效果和更低的副作用,被广泛应用于杀菌和抗感染,因此产生了大量的含有氧氟沙星的废水。如果未经处理或处理不完全的氧氟沙星废水流入环境中,会对生态系统和人体健康构成威胁。目前已经有很多方法处理氧氟沙星废水,但是由于氧氟沙星具有低生物吸收性和难降解性,导致传统的方式不能有效的降解氧氟沙星。所以,探索一种高效绿色的处理氧氟沙星废水的方法至关重要。使用Ti O2的光催化降解有机物作为一种
学位
心血管疾病已经成为全球死亡原因的首位原因,因此使用医学影像技术全面准确地评估心脏功能和运动状况具有重要意义。心脏磁共振成像是心功能量化评估的金标准,近年来出现了一些能从磁共振成像中进行心功能定量分析的专业软件,如CVI 42等,但仍存在以下不足:(1)分割阶段需手动勾勒心肌内外膜轮廓,繁琐且耗时;(2)多用传统算法进行心肌运动跟踪,反复迭代优化导致效率较低下;(3)此类软件多为商业软件,费用高昂且
学位