论文部分内容阅读
图像文本描述生成旨在将图像翻译成完整的自然语句。它涉及计算机视觉和自然语言处理。一方面,尽管图像文本描述生成在深度神经网络的快速发展下取得了良好的效果,但过分追求文本描述生成模型的评价结果使得生成的文字描述在实际应用中过于保守。有必要增加文本描述的多样性并解释先前的知识,例如用户最喜欢的词汇和写作风格。另一方面,图像文本描述生成模型通常需要大量图像句子对用于训练。因此,如何减轻对图像句子数据集的依赖,学习不同数据集之间的域差异并利用其他可用的数据注释来很好地训练图像文本描述生成模型也变得越来越重要。然而,实际上,获得足够的带有文本描述标签的图像数据集是很昂贵的,这使得图像文本生成模型在描述训练语料库之外的对象,即新颖对象(新颖词汇)的能力上受到限制。针对图片文本描述生成任务上存在的个性化,域差异和新颖词汇(Out of vocabulary)的问题,本文主要完成了以下工作:(1)针对个性化:本文提出了可以生成句子的个性化图片文本描述生成,用最优先的单词表达来描述用户自己的故事和生活感受。所提出的方法可以通过将用户ID嵌入为兴趣向量来灵活地建模用户兴趣。通过对每个用户的专属信息,如图片特征、用户ID、用户内容,进行兴趣建模,构建了用户的特色兴趣向量。通过用户兴趣向量并结合自顶向下的注意力机制可以更好地指导语言模型的训练,生成符合用户风格的文本描述语句。该方法的有效性在Instagram和Lookbook平台的数据集上得到了验证。(2)针对域差异:本文提出了用简单而有效的域不变约束来学习可应用于不同数据平台的跨域文本描述生成模型。通过为模型构造以距离度量为核心的有效域约束,可以在隐空间最小化源域和目标域句子级别特征之间的域偏移,学习共享子空间特征,同时提出的域共享字典方法旨在丰富不同数据域的句子生成。为了进一步学习不同数据域的私有数据特性,本文还提出了通过域分类器机制指导语言模型生成特定数据域的文本语句。实验结果证明了方法的有效性。(3)针对新颖词汇:本文提出了融合复制机制的语言模型在食物分析数据集上的应用。该模型可以直接“复制”图片生成的候选词中的合适词汇(包括某些从未出现在配对的图片文本数据集中的新颖单词)以构建输出语句,从而实现对新颖单词的描述生成。通过将复制机制嵌入到传统端到端的序列生成模型中,并辅助有效的目标检测模型,有助于语言模型对新颖词汇描述生成学习。实验结果证明了方法的有效性。