基于生成对抗网络的图像自动文本标注方法研究

来源 :苏州科技大学 苏州科技学院 | 被引量 : 5次 | 上传用户:alex709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像自动文本标注目标是为图像中存在的目标和场景生成对应的语句标注。传统的图像自动文本标注方法包括语义模板填充法、特征空间匹配法以及CNNRNN三种方法。利用这些方法生成的自动语句标注存在Exposure Bias问题,距离真实语境仍然有较大差距,相似图像生成的语句过于相似,缺乏独特性。因此,利用传统方法难以对图像进行有效地语句标注。为了克服传统图像自动文本标注问题中的Exposure Bias问题,本文引入了生成对抗网络,借助其独特的对抗机制自动为图像生成语句标注,该机制能够有效地使得生成数据拟合真实地数据分布。为了有效分析图像和生成语句之间的关系,本文同时引入注意力机制,将图像自动文本标注问题看作是一个基于注意力机制的序列生成问题。从多模态角度出发,探寻多模态(图像、文本)的注意力机制在图像自动文本标注任务上的应用。本文的主要研究工作如下:(1)提出了一种基于注意力机制的图像多标签分类方法。图像自动文本标注问题可以简化为图像多标签分类问题。首先将图像的多标签看作是一个序列,采用CNN提取图像特征,采用RNN对多标签进行预测;在每一步预测过程中,结合注意力估计的关注区域,预测该区域可能的标签。实验结果表明本文提出的基于注意力机制的图像多标签分类方法在多个衡量标准上能够比原本基于CNN和CNN-RNN的方法提高2%~3%的效果。(2)提出了一种针对多模态数据的注意力累积机制。本文研究的图像自动文本标注问题是多模态问题。在多模态数据中,每种模态的数据都存在关键信息,但是这种关键信息无法有效协同分析。本文将提出一种注意力累积机制方法并应用在视觉指称任务中,将该任务中各个模态数据的注意力进行有效结合,并互相强化。实验结果表明,所提方法能有效提高指称效果,准确度平均提升3%,可视化实验表明每种模态数据的关注信息都得到了强化。(3)提出了一种能够强化注意力的注意力反馈机制。传统基于注意力机制的运算过程是一个单向传播的操作,这类方法存在注意力分散和生成语句错乱的问题。本文在传统的注意力机制基础上,构建了反馈通道,有效保证了输入和输出注意力描述信息的匹配准确性,使得生成语句更加准确。实验表明,本文提出的注意力反馈机制在BLEU和METEOR两个衡量标准上相比原本基于注意力机制的方法提高了2%。(4)提出了一种基于生成对抗网络图像自动文本标注模型。本文在基于注意力机制的图像自动文本标注基础上,引入生成对抗网络思想,构建基于生成对抗网络的图像自动文本标注模型。模型的生成器采用多模态数据的注意力机制,同时将图像和文本的关注信息输入到判别器中判断真假,最终提升生成效果。本文采用Gumbel-Softmax分布柔化原本生成器中图像自动文本标注的离散输出,解决其直接输入到判别器中导致不可导问题。实验结果表明,本文提出的基于生成对抗网络的图像自动文本标注方法能够生成更加准确的语句标注,在BLEU和METEOR衡量标准上相比基于注意力反馈机制的方法提升了2~3%。
其他文献
随着油气勘探开发的持续发展和理论技术的不断提高,大型盆地超深层(>6,000 m)逐步成为油气资源重要接替领域,也是我国“深地、深空、深海”战略的重要组成.近年来勘探发现和
期刊
传统的光学变焦系统需要大量的透镜做机械运动,工艺复杂成本高,新型光学变焦系统不仅不需要做机械运动,而且可以减小体积,适用于更多的领域,液体透镜就是这种新型的变焦透镜之一。近年来液体透镜发展迅速,目前已有电湿润、液晶、液压和超声驱动等液体变焦透镜的研究。超声振动变焦透镜具有响应速度快、变焦范围广等优点,本文对超声振动驱动液体变焦透镜的机理进行了研究。本文的研究工作主要包括以下三个方面:首先,本文设计
本文通过对荣华二采区10
期刊
在城市交通压力愈显突出的背景下,城市轨道交通正被国内许多一、二线城市所采用。由于城市轨道交通项目需要巨大的资本投入和漫长的建设工期,单一的投资方通常不能承担,所以
由于轨头缺陷导致了许多铁路事故,甚至发生列车脱轨的严重的后果。铁路行业的一个主要挑战是检测轨头的临界表面缺陷。在这样的背景下,常规的检测方法已被证明不够可靠的检测出临界表面缺陷。因此,本文的目的是建立一种方法对轨头缺陷进行准确性检测。方法是使用低频表面波扫描反射波检测。本文对导波在轨头厚度的钢板与轨头中的传播特性,频散曲线及缺陷检测做了研究,具体工作如下:首先阐述了导波检测的国内外现状。介绍了导波
光谱仪可以利用物质的特征光谱,对其成分和含量进行定性和定量分析,其应用范围几乎覆盖了所有的科学领域,包括冶金、地质勘探、环境保护、海洋开发等。近些年来,随着科学技术的发
随着我国客运专线陆续建成并投入运营,为保证动车组乘务员运用工作均衡、合理,深入研究动车组乘务计划优化编制问题很有必要。本文在既有研究的基础上,综合运用运输组织学、
目的 探讨鼓室内不同给药方式应用地塞米松补救性治疗难治性突发性聋的疗效.方法 通过关键词在中国知网、万方、维普、CBM、Pubmed、Medline、Embase、Cochrane等中英文数据
随着全球经济和人类社会的快速发展,人类在寻找可再生能源技术的同时也希望仪器设备朝着小型化、轻量化、微型化以及节能化发展。光学自由曲面灵活的空间布局和极高的设计自由
学位