基于深度强化学习的图像描述模型

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yhh9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机视觉和自然语言处理是当前人工智能研究的两个热门方向,而图像描述则是两者交叉融合的一个综合性研究课题,近几年也越来越多地受到学术界和工业界关注。让机器学习理解并翻译一张图片是非常具有挑战性的,需要利用模型学习理解图像内容,除此之外模型还需要抓住图像的语义信息并且学习用自然语言表达图像内容,最后生成语义逻辑正确、通顺连贯且人类可读的句子。目前基于深度学习的图像描述普遍存在着一些问题:首先,模型的损失函数为交叉熵损失,这种损失函数与评价指标Bleu4等指标对模型的优化方向不一致;其次,模型的训练阶段和测试阶段存在着曝光偏置问题,也就是训练时,模型会使用真实标签作为训练数据,而测试时则是使用生成的语句代替真实标签,因此会导致训练和测试时模型对真实标签的暴露不一致问题,为了解决上述两个问题,本文主要从基于Transformer模型和自评价机制的强化学习算法入手。本文主要工作为:1.提出了一种基于机器翻译领域Transformer模型的图像描述模型Caption Transformer。编码器-解码器的图像描述生成模型已经成为当前主流模型框架,注意力机制的应用也极大地提高了图像描述效果。主流的模型基本都以卷积神经网络(CNN)作编码器提取图像特征,以循环神经网络(RNN)作解码器生成描述语句。但是简单的CNN特征提取能力不强,不具备多视图(Multi Views)学习能力,RNN是按顺序生成单词,限制了模型并行计算能力且存在长期依赖问题。为了解决这些问题,本文将Transformer模型运用到图像描述领域,并在编码器之前加入多个目标检测器提取图像特征,提升模型多视图学习能力,检测到的图像特征作为解码器的输入,并通过实验证明了我们的模型在MSCOCO数据集上效果比Faster RCNN加LSTM的基准模型效果更好。2.提出一种基于自评价策略的强化学习图像描述模型。为了解决传统的图像描述模型在训练阶段和测试阶段的曝光偏差(Exposure Bias)问题和优化目标与评价指标不一致的问题,我们在Caption Transformer的基础上引入强化学习(Reinforcement Learning)的训练方法,参考了行为评价强化(AC)算法和强化学习(Q-learning)算法,提出了基于自评价机制的强化学习算法。当前的大多数图像描述模型都以最大似然估计建模,通过最小化交叉熵损失(Cross Entropy Loss)函数训练模型。在训练时解码器每一时刻输入的都是真实词(Ground Truth),但在测试时解码器依据前一时刻模型预测出来的单词来预测该时刻的单词,如果某一时刻解码器预测的单词得不够准确,错误将会累积传递,之后所有单词的预测都会受到影响,也就是曝光偏差问题。模型在训练时的目标是最小化交叉熵损失函数,但是在评价生成的描述语句质量时用的是BLEU等客观指标,这就是模型训练目标和评价指标不一致的问题。为了解决这些问题,我们运用基于自评价策略的训练方法,直接以BLEU等指标为目标对模型进行训练,对比实验表明这种方法能够进一步提升模型效果。
其他文献
《关于进一步规范财务审计秩序促进注册会计师行业健康发展的意见》(以下简称《意见》)或国办发30号文件)出台后,在注册会计师行业引起积极反响。为深入学习贯彻国办发30号文件精神,推动文件内容落实、落深、落细,《中国注册会计师》杂志联合各地注册会计师协会,开展了“走近地方注协、走近会计师事务所、走近注册会计师、走近从业人员”专题采访活动。我刊将陆续编发系列采访文章,全面展示行业依法整治财务审计秩序、强
期刊
对于处在互联网行业的企业来说,敏锐捕捉行业发展方向、积极拥抱市场的变化,满足客户的各种各样的需求,提高开发效率去最大化产品的价值变得至关重要。在这种刻不容缓的形势下敏捷开发管理模式诞生了,并迅速在互联网行业推广使用,敏捷开发“小步快跑,快速迭代”的理念,不仅为企业创造了巨大的商业价值,也更好更高效的完成了客户的需求。随着用户的需求越发复杂,需求变化的速度越来越快,对于需求管理、需求变更、需求的实现
近年来随社会经济发展,及人口老龄化现象加重,人们对自身健康问题也更加关注。推进健康中国建设、提高国民健康水平成为我国的重要奋斗目标。呼吸、心跳作为重要的生命体征能够准确反应测试者的身体健康状态,因此对其的精确测量具有重要的临床意义。非接触式体征检测相较于传统的接触式检测方式,具有对测试者影响小、成本低、体积小等特点,因此针对非接触式检测设备的研究得到了广泛的关注。调频连续波(FMCW)体制雷达是雷
如今,各行各业或多或少都需要互联网信息技术的支持,教育行业也在互联网的大背景下进行着变革,人们对于在线学习需求提升,一系列在线学习平台应运而生,信息技术学习成为在线学习行业主要需求之一,但是市面上的教育产品参差不齐,大多数的在线学习平台存在着诸多问题,如学习资源驳杂,涉及领域过广,无法有针对性地服务一类用户,做不到服务“极致化”;学习方式单一,有的平台只可以通过点播视频进行学习,有的平台只可以通过
在相控阵雷达进行目标搜索和目标跟踪时,如果干扰落在天线方向图的主瓣范围内,干扰信号的存在会导致相控阵雷达的搜索和跟踪效果大幅度下降,造成测向精度下降甚至目标丢失等严重后果。现有的许多主瓣干扰抑制算法计算复杂度较高,难以满足工程中的实时性需求,同时无法在强主瓣干扰的条件下兼顾对旁瓣干扰的抑制。大型相控阵雷达往往阵元数目成千上万,为降低算法的运算量需要通过划分子阵的方式对阵列进行降维处理。本文针对上述
作为模拟信号与数字信号的桥梁,模数转换器严重影响通信、智能传感等系统的性能,也是模拟集成电路领域一直以来的研究热点。流水线模数转换器(Pipeline ADC)因其流水线操作的特点,是实现高速高精度指标的首选架构。但是由于传统结构包含大量运放和比较器,使得功耗随精度增加而大大增大。相较而言,逐次逼近型模数转换器(SAR ADC)能效优势明显,结构简单,与先进工艺兼容性高,但其速度受限于比较次数和比
函证是指审计人员为了获取影响财务报表或相关披露认定的项目的信息,通过直接来自第三方对有关信息和现存状况的声明,获取和评价审计证据的过程,如对应收账款余额或银行存款的函证。整个函证过程由注册会计师主导,由被审计单位和被询证单位配合完成。作为一项不可或缺的审计程序,审计人员需要保证函证的有效性,以充分发挥函证的证明作用。要保证注册会计师获取到充分可靠的审计证据,完善的函证程序是必不可少的,同时也对审计
网约车作为共享经济的代表性业态,以大数据和云计算技术为驱动,对传统出行业态实施了现代化改造。网约车释放了诸多社会"红利",亦改变了秩序、利益的配置方式,但在运营安全管理、产品合规性等方面存在诸多问题和安全隐患,这些问题仅仅依赖平台的自我规制无法有效解决,亟须完善法律规制予以回应。因此,欲促进网约车健康持续发展,应从完善网约车立法、规范执法方式及尺度、发挥司法规制优势、建立健全配套保障措施等方面建构
随着社会经济的发展,人们对康复治疗的追求日益提高,促使康复机器人迅速发展。康复机器人与索牵引技术的结合,简化了机器人结构、增强了柔顺性、且具有工作空间大以及人机交互安全等优点。本文通过对索牵引康复机器人的国内外发展现状与机器人零位标定技术和控制策略的研究,设计出一款用于下肢康复的索牵引康复机器人,对其进行零位标定分析与仿真控制分析,并设计实验对理论分析进行验证。主要研究工作如下:基于人体尺寸标准与
由于倒立摆系统在控制领域中的典型性,因此已经成为一个长期的研究方向。本文以直线型倒立摆系统为研究对象,完成了对直线一级倒立摆系统起摆控制和直线二级倒立摆系统稳定控制的算法研究。本文首先研究了直线倒立摆系统的结构和基本组成,接着通过深入分析系统,发现倒立摆系统具有强耦合、欠驱动、非线性、不确定以及开环不稳定等性质。其次基于倒立摆系统所具有的性质,建立了比较精确的数学模型。由于直线一级倒立摆系统结构相