论文部分内容阅读
当今正处于移动互联和流媒体的时代,每天都会产生海量的数据。种类繁多的大量数据为数据分析工作带来了极大的挑战,如何从多种模态、数据量巨大的数据中挖掘有效信息成为了一个热点“话题”。图像字幕生成技术是一种跨模态分析任务,即数据从图像模态到文本模态的转换。该技术的目标是为图像生成一段能够自然表达该图像的文本,是一种多领域交叉学科的研究问题。本文将从研究背景及意义、国内外研究现状等方面详细介绍图像字幕技术,并从不同的角度对图像字幕生成模型和方法进行分析研究,具体研究内容如下:
(1)针对图像字幕技术中视觉信息和语义信息无法有效利用以及生成字幕缺乏语法可读性的问题,设计了一种基于注意力平衡机制和语法优化模块的图像字幕生成框架。首先,模型从图像中提取并编码图像中的视觉和语义信息,并利用多任务学习的方法获取图像的主题;其次,模型分别计算视觉注意力和语义注意力,获取与当前生成词汇的时刻相关的视觉特征和语义特征;再次,模型将得到的视觉注意力特征和语义注意力特征输入到注意力平衡机制中,并根据当前时刻的信息权衡两种注意力信息;最终,模型把加权后的注意力信息输入到语法优化模块中,该模块由长短时记忆网络和有序神经元长短时记忆网络组成,它有效增强了生成字幕的语法可读性。实验证明,该方法能够有效且合理地选择图像中的信息,并增强了生成字幕的语法可读性。
(2)针对图像字幕中缺乏风格化知识和不能有效融合图像客观信息与风格知识的问题,设计了一种基于风格注意力机制和反向强化模块的图像字幕生成框架。首先,模型从图像中捕获并编码视觉信息,并将其输入到风格-Transformer中的编码端,这是为了从高、低两个层级编码图像特征;其次,深度编码后的特征输入到风格-Transformer的解码端中,其风格注意力模块为生成的字幕融合风格知识;再次,生成的字幕输入到反向强化模块中,从视觉和风格两个方面对字幕生成模型进行优化;最终,整个模型通过预训练和微调两个阶段的训练,使得生成字幕融合了风格知识和图像客观信息。实验证明,该模型有效地解决了客观图像字幕中缺乏风格知识和风格化字幕不能兼顾图像客观信息和风格知识的问题。
(1)针对图像字幕技术中视觉信息和语义信息无法有效利用以及生成字幕缺乏语法可读性的问题,设计了一种基于注意力平衡机制和语法优化模块的图像字幕生成框架。首先,模型从图像中提取并编码图像中的视觉和语义信息,并利用多任务学习的方法获取图像的主题;其次,模型分别计算视觉注意力和语义注意力,获取与当前生成词汇的时刻相关的视觉特征和语义特征;再次,模型将得到的视觉注意力特征和语义注意力特征输入到注意力平衡机制中,并根据当前时刻的信息权衡两种注意力信息;最终,模型把加权后的注意力信息输入到语法优化模块中,该模块由长短时记忆网络和有序神经元长短时记忆网络组成,它有效增强了生成字幕的语法可读性。实验证明,该方法能够有效且合理地选择图像中的信息,并增强了生成字幕的语法可读性。
(2)针对图像字幕中缺乏风格化知识和不能有效融合图像客观信息与风格知识的问题,设计了一种基于风格注意力机制和反向强化模块的图像字幕生成框架。首先,模型从图像中捕获并编码视觉信息,并将其输入到风格-Transformer中的编码端,这是为了从高、低两个层级编码图像特征;其次,深度编码后的特征输入到风格-Transformer的解码端中,其风格注意力模块为生成的字幕融合风格知识;再次,生成的字幕输入到反向强化模块中,从视觉和风格两个方面对字幕生成模型进行优化;最终,整个模型通过预训练和微调两个阶段的训练,使得生成字幕融合了风格知识和图像客观信息。实验证明,该模型有效地解决了客观图像字幕中缺乏风格知识和风格化字幕不能兼顾图像客观信息和风格知识的问题。