跨模态检索中的相关度计算研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:qqwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、智能移动设备、社交媒体和即时通讯等技术的迅猛发展,人们可以随时随地自行创建和分享各种不同模态的多媒体数据(文字、图像、视频等)。面对大量产生的多媒体数据,如何从中高效、准确地检索到用户所需或感兴趣的多媒体数据是一个具有实际应用价值的问题。其中,跨模态检索允许输入的查询和候选检索对象为不同模态的数据并实现不同模态数据的相互检索,比如以图像搜文本、以文本搜图像等,其灵活多变的检索方式更能满足用户的检索需求,已成为多媒体检索领域的研究热点。对于给定的查询样例,跨模态检索技术根据候选检索对象与查询样例的相关度对候选对象进行排序从而得到最终的检索结果,因此关键在于计算不同模态的多媒体数据间的跨模态相关度。由于不同模态的数据之间呈现出底层特征异构及不可比的特点,称之为异构鸿沟,使得如何计算跨模态相关度成为巨大的挑战。针对上述挑战,本文关注文本、图像和视频三种最常见的数据,对基于文本和图像的跨模态检索及基于文本和视频的跨模态检索展开深入的研究。本文从跨模态数据的表达、公共空间选择的角度出发来计算跨模态相关度,提出了一系列跨模态检索模型,并在多个公开数据上进行了丰富的实验验证。此外,本文还系统评测了目前主流的基于文本和图像的跨模态检索模型,揭露了这些模型的优点和局限性,并从相关度融合角度提出了一个模型融合的框架。具体而言,本文的主要创新和工作可以总结为如下几个方面:1.现有的跨模态检索模型主要对跨模态数据的整体语义信息进行建模,而在图像分析、单模态图像检索领域中受到广泛关注的显著信息并没有在跨模态检索领域被挖掘。本文对文本、视频这两类数据的显著信息表达进行了挖掘,提出了一种能够同时获取输入数据的整体语义信息和显著信息的特征表达方法。所提出的特征表达方法被分别轻松地应用到基于公共空间学习和基于相似性度量的跨模态检索模型中,表现出很好的通用性。实验结果验证了该方法的有效性,并表明额外挖掘显著信息对跨模态检索的潜力。2.基于公共空间学习的主流跨模态检索方法主要依赖将不同模态的数据映射到公共的潜在子空间中,但潜在子空间缺乏实际的物理解释性且需要两次映射才能实现跨模态相关度的计算。本文直接将通过深度卷积神经网络得到的深度视觉特征空间作为公共空间,这样只需简单的单向映射就能实现相关度计算。为此,本文提出了一个可以从文本输入中学习预测深度视觉特征的神经网络模型,使得文本也能在深度视觉空间进行表达从而实现在这个空间中计算跨模态相关度。所提出的模型被应用于与图像和视频相关的跨模态检索中,并在四个公开数据集超过了主流的基于潜在子空间的跨模态模型,实验结果证明选择深度视觉空间作为公共空间进行跨模态检索的可行性和有效性。3.虽然有大量的跨模态检索模型相继被提出,但大部分的模型都是在实验的环境下进行评测,其在真实环境下的表现不得而知,这不利于我们更好的认识模型从而阻碍对模型的改进。本文结合商用搜索引擎的大规模查询日志数据分析对主流的基于文本和图像的跨模态检索模型进行系统地评测,提出了一个基于匹配的基线方法以帮助揭露复杂的先进模型相比于基线模型的性能提升,并进一步对各个模型进行了鲁棒分析和统计显著性检验。本文还通过引入查询的视觉性对文本查询进行自动分类,从而帮助对检索结果进行更细化的分析,认识模型的优点和局限性。4.不同特征和不同跨模态检索方法通常有自己独特的机制、优点及局限性,因此不同特征和不同的方法可能存在一定的互补性。本文系统地研究了特征融合、方法融合两种方案的特点和性能,并提出了一个跨模态相关度的融合框架。所提出的融合框架支持对任何跨模态检索方法进行融合,表现出很好的扩展性;实验结果证明,该融合框架不仅能提升跨模态检索的性能,还能提升其鲁棒性。5.在跨模态相关度融合框架下构建了一个跨模态图像检索原型系统,并在原型系统上初步实现了本文提出的跨模态检索模型,验证了模型在实际跨模态检索应用中的实用性。
其他文献
21世纪,随着核能与核技术应用快速发展,核恐怖袭击日益复杂,偶发、突发核辐射事故时有发生,生物剂量计在获取辐照伤员剂量信息上扮演着重要的角色。然而已有的生物剂量计在运
针对断面流仿真预测系统中输人起讫点(origin-destination,OD)矩阵的时间跨度与需求生成时间粒度不一致问题,结合进站量短时预测构建需求生成组合策略,将OD矩阵时间跨度离散化为
在自主研制的动态核极化(Dynamic Nuclear Polarization, DNP)谱仪的基础上,为产生DNP实验中用于饱和电子跃迁的微波信号以及获取电子顺磁共振(Electron Paramagnetic Resona
目前,水泵被运用到众多工业生产领域,尤其是核电站循环水泵机组,是保障核电站正常运转的关键设备,一旦发生故障将会造成巨大的经济损失和严重的社会影响。在运行的过程中,循
随着中国经济的高速发展,能源消费总量增长很快,化石能源特别是煤炭的大规模利用,对生态环境造成严重影响。核电作为一种清洁、高效、优质的现代能源,发展核电对优化能源结构
超临界水冷堆(SCWR)运行在水的热力学临界点以上(372℃,22.1MPa)以上,是第四代核电系统中唯一使用轻水冷却的堆型。该堆型具有热效率高、系统简化、机组可持续性强、燃料利用
党的十九大以来,新时代成为中国特色社会主义的新语境。坚持党的领导、以人民为中心的发展思想、坚持发展的整体性和构建人类命运共同体分别成为新时代的政治话语、价值话语
简要介绍“三段六环”导学模式及其背景,论述“三段六环”导学模式的具体实施。认为教师在应用“三段六环”导学模式的过程中应注意以下五点:做好前期准备工作,确保学生预习
钛锆转化膜是最有希望代替铬酸盐转化膜的技术之一。本文在课题组前期研究的有色钛锆转化膜处理工艺的基础上,针对成膜时间长的缺点,通过添加剂的筛选和成膜工艺参数的优化,得到
熔盐堆是第四届反应堆国际研讨会上被提出的六种第四代反应堆型之一。作为六种堆型中的唯一液态堆,熔盐堆与其它传统类型的反应堆相比具有安全性、经济性和高效性等优点,但设