论文部分内容阅读
随着信息技术的发展,互联网中海量多模态数据不断涌现。如何对这些海量数据进行分析、理解和利用,挖掘其中包含的具有巨大价值的信息,是一个重要的研究课题。 多模态数据往往由来自不同媒体的数据(如文本和图像等)耦合构成来表达共同语义。在共同语义表达过程中,不同模态数据相互协同而呈现复杂的语义对齐关系,如一幅图像与其对应描述文本之间存在全局语义的对齐,一幅图像中的视觉对象与其所对应一段文本中单词存在局部语义对齐。 发掘多模态数据中不同模态信息之间的语义对齐对多模态数据的分析与理解具有重要意义,在跨媒体数据检索、分类、描述生成、问答等领域中会起到巨大的作用。 本文的主要研究工作是:在学习多模态数据的跨媒体表示基础上,挖掘和发现多模态数据之间所蕴含丰富语义的对齐关系。为此,针对多模态数据之间所存在的语义对齐关系,本文从多模态语义的全局对齐、局部对齐-全局对齐和多层次对齐三个方面提出了若干模型和算法。 首先,本文提出了一种跨媒体隐式联合表达方法,用于挖掘图像-文本之间的全局语义对齐关系。在这一方法中,给定图像及其描述文字语句,本文引入条件随机场来挖掘图像-文本中共享的隐式主题,并将多模态数据之间的全局对齐关系建模为其在各个语义主题上的相关程度。本文将基于跨媒体隐式联合表达的全局对齐方法应用到跨媒体分类和排序两大任务当中。在分类任务上提出了建模跨媒体数据及其类别标签间全局语义对齐的多模态隐变量条件随机场模型。在排序问题上,提出在最大间隔排序学习框架下训练基于全局语义对齐的跨媒体排序函数。实验验证了这一方法相比其它方法更强的判别性,以及在跨媒体分类和排序任务上的有效性。 其次,为了在全局对齐的基础上进一步挖掘多模态数据之间的局部对齐关系(如图像中视觉对象与其对应文本描述中单词之间的对齐关系),本文提出了一种局部-全局协同对齐模型。这一模型使用深度神经网络将一幅图像中视觉对象与其描述文本中单词映射到局部语义空间中,挖掘局部对齐关系;通过将图像和文本分别表示为视觉对象和单词的组合语义嵌入,构建两者的全局共享空间,从而挖掘全局语义对齐关系。本文将提出的局部-全局协同语义对齐模型运用在图像-文本排序当中,基于最大间隔排序学习框架训练了综合考虑局部和全局语义对齐的跨媒体排序模型,取得了很好的效果。 最后,面对长视频等多模态数据中存在的多层复杂语义,本文提出了一种用于视频事件定位的基于层次化搜索策略的语义对齐方法。在视频事件定位问题中,为了精确地学习视频时序区域和事件标签之间的语义对齐关系,传统方法需要暴力式穷举不同时长的视频区域,并计算所有潜在区域与事件标签之间的对齐概率。为了克服穷举式搜索这一不足,本文采用强化学习来训练一种从全局对齐到局部对齐逐层细化的多层优化搜索策略。相比传统方法需要遍历所有尺度的视频区域,我们的方法在每一层搜索中能够自适应地基于已经观察的视频片段选择少数几个视频区域进行下一层搜索,有效地提升了搜索跨媒体数据对齐的计算效率。实验表明,本文提出的算法能够在遍历更少备选窗口的情况下,以更高的准确率和召回率定位显著性区域。