基于注意力机制的图像描述研究

来源 :河北师范大学 | 被引量 : 1次 | 上传用户:akuma7040
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述任务结合计算机视觉和自然语言处理技术,将输入的图像转换为描述图像内容的文本,实现视觉到语言的模态转换。在图像检索、人机交互、儿童教育等领域有广阔的应用前景。图像描述的生成依赖对图像内容的深入理解,因此模型不仅需要识别出图像中的对象,还需要识别出背景、动作、属性及对象间的语义关系等图像信息。传统的图像描述基于模板或检索生成,高度依赖模板或现有的文本描述,因此生成的句子描述单一化且相似度很高。随着深度神经网络的发展,基于深度学习的Encoder-Decoder框架在图像描述任务中取得了较大成果。但是现有方法还存在错误率高、质量不佳等问题。据此,本文针对基于深度学习的图像描述展开研究,主要工作如下:(1)提出基于注意力机制和双向长短期记忆网络(Bi-LSTM)的图像描述生成方法。针对现有图像描述方法存在的LSTM解码端在生成当前时刻单词时仅参考前面的信息,难以生成准确图像描述的问题,给出一种改进模型。改进模型的图像描述方法使用VGGNet19对图像进行特征提取,在每个时刻应用注意力机制计算每个图像区域的权重,并进行加权求和得到图像上下文向量,将图像上下文向量作为双向长短期记忆网络解码器的输入,解码时充分利用上下文信息生成对图像更为准确的句子描述。相对于基准模型,所提图像描述生成方法在MSCOCO数据集上的BLEU-1,BLEU-2,BLEU-3,BLEU-4和METEOR评分分别提高了3.11%,6.09%,6.98%,7.41%和7.53%,表明使用双向长短期记忆网络进行解码能够进一步提升模型的性能。(2)提出基于图像特征和文本特征的图像描述生成方法。针对长短期记忆网络计算当前时刻输出词的概率时依赖前面生成的单词信息,如果某一时刻的预测词不准确,会导致最终输出的整个句子偏离图像真实内容的问题,给出一种改进模型。改进模型的图像描述方法使用TF-IDF和Word2Vec将图像人工标注的句子转为文本特征向量,并通过VGGNet19提取图像特征向量。同时应用注意力机制分别计算图像上下文向量和文本上下文向量,作为两类输入信息共同提供给长短期记忆网络。在预测输出的单词时,综合图像信息和文本信息,有效减少错误单词的输出,生成准确率更高、更加贴近图像表述内容的句子。相对于基准模型,所提图像描述生成方法在MSCOCO数据集上的BLEU-1,BLEU-2,BLEU-3,BLEU-4和METEOR评分分别提高了4.10%,5.49%,8.14%,9.47%和6.28%,表明引入文本特征可有效提升模型性能。
其他文献
摘 要:语法是学习一门外语的基础,但是目前在英语学习中,大部分初中生感觉学习语法是枯燥无味的。在中学英语的教学中,教师的教学方法比较死板,学生学习也缺少变通。采用任务型教学法创设一定的语境,设定一些任务完成语法项目的教学,对提高初中生语法学习的有效性具有促进作用。  关键词:任务型阅读;语法学习;有效性  一、语法学习现状与任务型教学  词汇、语法是学习一门外语的起点与基础,因此,词汇与语法的学习
审前羁押,是指犯罪嫌疑人、被告人在依法被确定为有罪之前,被采取剥夺和限制人身自由的强制措施。一方面,审前羁押具有诉讼程序性功能和犯罪预防性功能,因而为世界各国所广泛使用。另一方面,如果对犯罪嫌疑人、被告人审前羁押适用不当甚至错误羁押,则会对其人身自由权造成难以挽回的实质性损害,因而世界各主要法治国家普遍采取以权力制约权力的模式,对审前羁押进行必要的控制,以防其被滥用。目前世界上多数国家由法院对审前
进入5月份以来,五台山大酒店可谓喜事连连,先是营业额创历史同期最高水平,酒店老总获省劳动模范光荣称号,继之酒店员工获得市职工职业道德十佳标兵及个人一等功殊荣,酒店再次在全
阳春三月,春暖花开。随着旅游季节的日渐临近,平顺县通往:天脊山、井底景区的公路,由于受冬季雪雨侵袭,矿车重压,寺头至天池岭段多处损坏,油料碎裂,地下翻装,影响来往车辆正常通行,
本文阐述了计算机网络技术专业课程体系建设中人才的培养方向及专业更新所涉及的课程体系的改革,并提出了高职计算机网络设计专业与本科课程体系衔接的理念及具体措施。
大象能用鼻子轻松地将1吨重的东西卷起来,但我们却常常发现,许多大象被安静地拴在小木桩上。它们完全可以扬鼻把木桩拔起,从而不被木桩所困。
并购活动是企业扩大生产、调整产业结构和实现战略目标的重要手段之一,也是其发展壮大过程中必然存在的经济活动。近年来,我国坚持深化市场化改革,加快建设现代化经济体系,企业并购是我国进行产业调整、升级的重要方式之一,并购活动成为资本市场上常见的经济活动,占据越来越重要的地位。在如火如荼的并购市场上也存在诸多乱像,如并购后业绩变脸、商誉计提过高等问题,加强对并购绩效方面的研究,切实提高企业并购绩效具有重要
LED(Light Emitting Diode)作为节能光源已经得到了广泛应用,LED的封装技术也在不断发展,其中热超声引线键合是目前最常用的一种封装方式。采用热超声引线键合的LED支架主要包括直插式支架和贴片式支架,直插式支架的引线键合技术与国外水平仍存在差距,如何提高其一焊和二焊的键合质量是急需解决的关键技术性问题。在实际生产中,生产芯片的厂家规模较大、管理规范,芯片电极具有较好的一致性,因