基于注意力机制的图像描述生成技术研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户：xiaoyan_0532

【摘要】

：

图像描述生成是一项结合了计算机视觉和自然语言处理的任务,对于给定图像,要求算法根据图像内容自动生成可以描述图像内容的自然语言。该任务在图像辅助理解、图文互搜等领域

【作者】

：

廖南星

【出处】

：

中国矿业大学

【发表日期】

：

2004年期

【关键词】

：

图像描述生成视觉注意力机制编码器-解码器框架类激活映射机制长短时记忆网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

图像描述生成是一项结合了计算机视觉和自然语言处理的任务,对于给定图像,要求算法根据图像内容自动生成可以描述图像内容的自然语言。该任务在图像辅助理解、图文互搜等领域具有较强的实用价值。近年来,针对如何高效利用图像卷积特征以生成更好的描述语句成为图像描述生成任务的重要研究方向。本文在当前图像描述生成方法的基础上,从特征组合以及高级语义信息的利用上进行了相关研究:1)基于类激活映射机制的图像描述生成方法。本文在现有图像描述生成框架中引入类激活映射机制,提出了基于类激活映射注意力机制的图像描述生成框架(Class Activation Mapping-Attention,CAMA),在生成单词与卷积特征之间建立联系,以实现卷积特征能够与生成单词更好的语义对齐。与其他使用基于空间的特征表达不同,在注意力机制计算之前,就对卷积特征进行组合以得到更合适准确的特征表达,在当前软注意力框架基础上引入类激活映射机制,利用类激活映射机制重新组合由卷积神经网络得到的图像卷积特征。而在图像描述生成部分,为了使解码模块适应类激活映射机制算法,采用双层长短时记忆网络,充分利用图像的全局特征和局部特征,有效提高模型的表达能力。通过MSCOCO、Flickr8k、Flickr30k数据集实验结果对比,对照当前主流模型有较为明显提升,其中MSCOCO上训练的基于ResNet-50的模型在Bleu-2指标上相对于Soft-attend模型提升了7.3%,在Bleu-3指标上相对m-RNN模型提升了10.8%,在Bleu-4指标上相对NIC模型提升了2.5%。2)面向实体特征图像描述生成方法。在基于类激活映射注意力机制的图像描述生成框架的基础上提出面向实体特征描述的图像描述生成方法,从给定图像描述语句中挖掘其中的实体属性标注,并将实体特征引入到当前的编码器解码器框架中来,相较于直接使用词向量聚类的方法,实体特征标注具有更明确的语义信息,也具有更好的表现效果。公开数据集实验上的结果表明,具有明确语义关系的标注得到的图像卷积特征具有更好的效果,明确语义语义信息的图像卷积特征对于图像描述生成任务具有明显帮助,能够从整体上得到图像中物体之间相互关系的语义信息,同时能够从细节得到图像中物体相关的信息。其中在MSCOCO数据集上训练的面向实体特征描述的模型在Bleu-1指标上相对于Soft-attend模型提升了2.9%,在Bleu-3指标上相对于CAMA模型提升了10.5%,在Bleu-4指标上相对于CAMA模型提升了10.7%,在ROUGE_L指标上相对于CAMA模型提升了3.9%,在CIDEr指标上相对于CAMA模型提升了9.4%。

其他文献

基于主题模型和句向量的文本语义挖掘研究

随着互联网的快速发展,各种信息数据以指数级别的速度增加,海量杂乱无章的文本数据分布在各行各业,而文本挖掘中用户特征分析、推荐系统、舆情监控等任务的实现均依赖于高质

学位

文本语义挖掘主题模型句向量文本聚类

雷达目标平动补偿与微动参数估计技术研究

雷达目标的微动中包含了大量的信息,微动是由目标结构特点和运动信息作用的结果,可根据微动特征得到雷达目标的特有信息,对目标的微动特征提取成为雷达目标探测领域一个热门

学位

微动参数估计进动角循环相关系数平动补偿

面向异构蜂窝网视频缓存的使能方法研究

近年来,为了应对移动数据流量的爆发式增长,通过在传统基站覆盖范围内布置低成本、低能耗、覆盖范围小的异构小基站构建的异构蜂窝网络受到了广泛的关注。但是小基站有限的回

学位

异构蜂窝网络视频缓存缓存使能网络规划

社交网络中社区的发现与演化研究及应用

随着社交时代的到来,社交网络分析逐渐成为研究热点,在社交网络研究的众多问题中,社区的发现与演化分析是一个典型问题。相比较其他复杂网络,社交网络在节点的多样性和结构的

学位

社交网络重叠社区动态社区种子节点演化分析

恢复无义突变及抑制失活p53活性的策略

p53蛋白是一种重要的肿瘤抑制因子,在细胞周期的阻滞、DNA损伤的修复以及细胞凋亡等过程中发挥着重要作用。大约有50%恶性肿瘤与p53基因突变有关,约50%肿瘤与p53蛋白的活性受

学位

p53蛋白无义突变通读氨基糖苷类抗生素N24p28

基于虚拟仪器技术的半导体材料测试系统设计

半导体热电材料的电阻率和电动势率是判断其热电性能好坏的重要标准,通过测量电阻率和电动势率,可以得到半导体热电材料的功率因子,从而分析材料的热电转换效率。为了对半导

学位

电阻率电动势率改进的RANSAC算法虚拟仪器技术

基于稀疏表示的欠定语音盲源分离算法研究

随着信息技术的发展,盲源分离逐渐成为了信号处理领域至关重要的研究技术,其主要针对在源信号及混合参数都未知的情况下,仅依据观测信号分离出源信号。根据源信号数目和观测

学位

欠定盲源分离模糊C均值进化规划贪婪双稀疏字典压缩感知

中小板上市公司控股股东股权质押、股权制衡度与股价崩盘风险的研究

随着我国资本市场相关制度与法律法规的不断发展和完善,股权质押凭借其方便快捷等诸多优点成为上市公司特别是中小板上市公司筹措资金的重要工具,深受上市公司控股股东的青睐

学位

股权质押股权制衡股价崩盘风险公司治理

基于特征重要度的缺陷报告推荐方法研究

由于开源软件的研发与维护采用自愿参与、分散组织方式,相对于商业软件,开源软件缺陷分派存在更多的不确定性、往往具有更长的缺陷修复过程。一些像Mozilla、Eclipse等具有广

学位

文本分析特征提取特征排序缺陷推荐

面向移动用户的车载网络覆盖与缓存替换策略

无线网络技术的发展和智能移动终端的普及,给人们日常办公和娱乐带来了极大的便利,也使得运营商数据流量逐渐从传统的固网转移到无线网路。而诸如超高清视频、物联网等概念的

学位

车载AP网络接入缓存用户体验

基于注意力机制的图像描述生成技术研究

与本文相关的学术论文