论文部分内容阅读
随着互联网、智能移动设备、社交媒体和即时通讯等技术的迅猛发展,人们可以随时随地自行创建和分享各种不同模态的多媒体数据(文字、图像、视频等)。面对大量产生的多媒体数据,如何从中高效、准确地检索到用户所需或感兴趣的多媒体数据是一个具有实际应用价值的问题。其中,跨模态检索允许输入的查询和候选检索对象为不同模态的数据并实现不同模态数据的相互检索,比如以图像搜文本、以文本搜图像等,其灵活多变的检索方式更能满足用户的检索需求,已成为多媒体检索领域的研究热点。对于给定的查询样例,跨模态检索技术根据候选检索对象与查询样例的相关度对候选对象进行排序从而得到最终的检索结果,因此关键在于计算不同模态的多媒体数据间的跨模态相关度。由于不同模态的数据之间呈现出底层特征异构及不可比的特点,称之为异构鸿沟,使得如何计算跨模态相关度成为巨大的挑战。针对上述挑战,本文关注文本、图像和视频三种最常见的数据,对基于文本和图像的跨模态检索及基于文本和视频的跨模态检索展开深入的研究。本文从跨模态数据的表达、公共空间选择的角度出发来计算跨模态相关度,提出了一系列跨模态检索模型,并在多个公开数据上进行了丰富的实验验证。此外,本文还系统评测了目前主流的基于文本和图像的跨模态检索模型,揭露了这些模型的优点和局限性,并从相关度融合角度提出了一个模型融合的框架。具体而言,本文的主要创新和工作可以总结为如下几个方面:1.现有的跨模态检索模型主要对跨模态数据的整体语义信息进行建模,而在图像分析、单模态图像检索领域中受到广泛关注的显著信息并没有在跨模态检索领域被挖掘。本文对文本、视频这两类数据的显著信息表达进行了挖掘,提出了一种能够同时获取输入数据的整体语义信息和显著信息的特征表达方法。所提出的特征表达方法被分别轻松地应用到基于公共空间学习和基于相似性度量的跨模态检索模型中,表现出很好的通用性。实验结果验证了该方法的有效性,并表明额外挖掘显著信息对跨模态检索的潜力。2.基于公共空间学习的主流跨模态检索方法主要依赖将不同模态的数据映射到公共的潜在子空间中,但潜在子空间缺乏实际的物理解释性且需要两次映射才能实现跨模态相关度的计算。本文直接将通过深度卷积神经网络得到的深度视觉特征空间作为公共空间,这样只需简单的单向映射就能实现相关度计算。为此,本文提出了一个可以从文本输入中学习预测深度视觉特征的神经网络模型,使得文本也能在深度视觉空间进行表达从而实现在这个空间中计算跨模态相关度。所提出的模型被应用于与图像和视频相关的跨模态检索中,并在四个公开数据集超过了主流的基于潜在子空间的跨模态模型,实验结果证明选择深度视觉空间作为公共空间进行跨模态检索的可行性和有效性。3.虽然有大量的跨模态检索模型相继被提出,但大部分的模型都是在实验的环境下进行评测,其在真实环境下的表现不得而知,这不利于我们更好的认识模型从而阻碍对模型的改进。本文结合商用搜索引擎的大规模查询日志数据分析对主流的基于文本和图像的跨模态检索模型进行系统地评测,提出了一个基于匹配的基线方法以帮助揭露复杂的先进模型相比于基线模型的性能提升,并进一步对各个模型进行了鲁棒分析和统计显著性检验。本文还通过引入查询的视觉性对文本查询进行自动分类,从而帮助对检索结果进行更细化的分析,认识模型的优点和局限性。4.不同特征和不同跨模态检索方法通常有自己独特的机制、优点及局限性,因此不同特征和不同的方法可能存在一定的互补性。本文系统地研究了特征融合、方法融合两种方案的特点和性能,并提出了一个跨模态相关度的融合框架。所提出的融合框架支持对任何跨模态检索方法进行融合,表现出很好的扩展性;实验结果证明,该融合框架不仅能提升跨模态检索的性能,还能提升其鲁棒性。5.在跨模态相关度融合框架下构建了一个跨模态图像检索原型系统,并在原型系统上初步实现了本文提出的跨模态检索模型,验证了模型在实际跨模态检索应用中的实用性。