基于深度学习的图像描述方法研究

来源 :天津理工大学 | 被引量 : 7次 | 上传用户:zxc00663340
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自2012年以来,深度学习技术在计算机视觉、自然语言处理和语音识别等领域被深入探索并取得了突出的效果,表现出了优异的表示学习能力。图像描述任务(Image Caption)作为一个跨学科、跨模态的交叉研究问题,是对深度神经网络的学习能力向多个数据域拓展的一步重要探索。图像描述任务的目标是使计算机能够自动的对图片生成一段描述性文字,但这种简单的描述更倾向于捕捉全局图像的要点信息,而不是细粒度的实体,特别是当图像中包含较多物体时,用一句话描述已经很难完整的传达图像中的细节信息。对于图像描述任务不能覆盖丰富的底层语义问题,2016年又出现图像密集描述任务(Dense Caption),该任务不仅需要对图像中有意义区域进行定位,同时还要对检测出的区域进行语言描述。本文针对图像描述任务和密集描述任务中所存在的问题分别做了如下的研究工作:对于图像描述任务,基于深度神经网络的方法普遍存在两个问题。首先,经过卷积神经网络(CNN)提取的图像特征向量只能保留原始图像的显著特征,这个过程会损失很多有用的图像信息,造成的结果就是生成的语句常常伴随着对视觉属性的错误预测。此外,循环神经网络(RNN)存在梯度消失问题,随着循环神经网络时间片的增长,梯度误差在反向传播过程中会逐渐消失,从而导致后续时间片生成的单词缺乏先前信息指导。针对这两个问题,本文提出了一种基于多模态融合的图像描述方法。模型使用目标检测方法来生成图像的属性信息,在每一步单词生成时额外利用图像高层语义信息和句子特征来指导单词生成。同时采用一种时序卷积结构提取语句特征,将句子特征融合进每个RNN时间片从而增强RNN对历史单词的长距离相关性建模。为了更好的展示两种多模态信息对结果的影响,实验中设计了很多不同结构,并且在Flickr8k、Flickr30k和MSCOCO数据集上进行了验证。实验结果显示,通过在基准模型(GRU、LSTM、Peephole LSTM)上增加两种多模态信息可以显著提高模型性能。特别是在MSCOCO数据集上,BLEU@4和CIDEr指标上分别提高了4.1%和10.4%。对于密集描述任务,现有模型的主干结构通常是对区域图像特征提取与区域目标检测两大模块共享的,但在实践过程中发现,这种共享的主干结构会导致模型训练效率低下,原因是主干结构内部的参数很难同时适应两个训练目标。针对这个问题,本文提出了一种分叉卷积结构(Bifurcate Inception)。结构将区域图像特征提取与区域目标检测两大模块分开,同时配合一种交替固定训练方式,使模型的两部分模块不会相互干扰可以正常的端到端训练。模型在使用Bifurcate Inception结构基础上还有另外两点改进:第一,为进一步增强模型的区域目标检测能力,本文重新设计了一个One-Stage目标检测器以替代能力较弱的RPN(Region Proposal Network)网络。第二,在进行图像区域描述训练时,模型除了提取区域卷积特征,还将额外提取图像全局属性信息,使LSTM在训练时能够利用两种视觉信息以提高模型区域描述的准确度。根据以上改进思路,本文在Visual Genome公开数据集上的进行了充分的实验,模型在Visual Genome v1.0数据集上达到了mAP 8.21,在Visual Genome v1.2数据集上达到mAP 8.39,比先前主流密集描述模型FCLN(Fully Convolutional Localization Networks)mAP 5.39提高了近53%。
其他文献
目的:通过探索针灸治疗肥胖型多囊卵巢综合征的取穴规律浅析该病的病因病机。方法:检索2010年1月至2018年7月于中国知网(CNKI)公开发表的文献,筛选关键词为"肥胖型多囊卵巢综
在幼儿的日常活动中游戏是不可或缺的,因此在角色游戏教学中,教师一定要创设良好的游戏,让幼儿在游戏中可以更好的交流以此来提高自身的语言能力。
外源性创新投入是指存在于企业外部的知识与技术的总和,它在企业技术创新活动中起着越来越重要的作用。针对我国部分高、中技术企业,对外源性创新投入在企业技术创新活动中的
《醉玲珑》根据同名小说改编,讲述了凤卿尘与元凌在双时空中的皇子夺嫡时,二人出生入死的故事。该剧表面上看是一部不折不扣的围绕女主爱情线展开的剧,但实际上则是一场关于
糖类化合物在生物体内发挥着重要的作用,目前临床上已有多种糖类化合物被用于疾病的治疗。然而天然存在的内源性糖类化合物大多以低浓度和微观不均一性存在,其分离和表征困难,因此化学合成成为获取纯净的糖类化合物的重要途径。皂甙是广泛存在于高等植物中的一类具有生物活性的甾体或三萜糖缀合物。其中,Elatoside E是从Aralia elata Seem的根皮质中分离出来的一种典型的齐墩果烷型三萜皂甙类化合物
随着高速公路的迅速发展,沥青混合料作为高等级公路的主要路面材料得到了广泛的应用。越来越多的研究者开始分析研究沥青路面的病害问题,如车辙、开裂、松散、坑洞等,而这些
我们经常看到这样的电视情节:炮弹呼啸着如雨一般落下,巨响过后炸开很多又大又深的弹坑,死里逃生的士兵们纷纷跳进弹坑作为掩体,躲过后续炸弹的杀伤。然而——
期刊
《都柏林人》可存在多种的解读。文本的意义和读者对文本的再造都有其合理性诠释的空间,也许这正是《都柏林人》作为文学典型的价值所在。
目的:探讨新生儿明先天性心脏术后合并重度肺动脉高压的护理策略。方法:2005年1月~2010年10月我科共收治155例新生Jr&天性心脏病术后并发重度肺动脉高压的患儿,通过严密监护加强护
詹姆斯.乔伊斯在他的第一部短篇小说集<都柏林人>中,所描写的人物虽然有着不同的阶层却有着相同的虚荣,虽然渴望共鸣却又孤独、无力逃脱,其实这是一群灵魂已经&#39;死亡&#39;