论文部分内容阅读
随着移动互联网的发展和智能手机、数码相机等设备的普及,互联网上的多媒体数据呈爆炸式增长。在信息检索领域,多媒体大数据的不断增长带来了跨模态检索应用需求。所谓跨模态检索,即查询和待检索数据模态是不同的,如查询数据为图像,待检索数据为文本或视频等。而目前主流的搜索引擎,如百度、谷歌、必应等,仅提供一种模态的检索结果,即以文本检索文本、以图像检索图像等。此外,随着深度学习在计算机视觉、自然语言处理等领域取得一系列突破性进展,将多媒体大数据与人工智能相结合,是两个领域未来共同的发展趋势。因此,结合新技术和新需求,探索新的跨模态检索模式成为当前信息检索领域亟待解决的挑战之一。本文主要关注图像和文本两种模态之间的相互检索。通过深入分析对比现有方法,发现哈希方法在解决大规模跨模态检索问题上具有存储效率高、检索速度快的优点。但当前大部分基于哈希方法的跨模态检索仍采用传统手工设计特征,并且在处理多标签数据时没有充分利用标签的语义信息,使得检索结果准确率不高。针对以上缺陷,本文提出一种基于多层语义的深度跨模态哈希方法(DeepMulti-level Semantic Hashing,DMSH),实现图像-文本跨模态检索的同时,解决了当前大部分跨模态检索方法在处理多标签数据上的不足,充分利用了深度学习在特征提取和表示上的优势,及哈希方法在数据存储和计算效率上的高效性。具体地,本文主要研究工作包括:(1)在回顾跨模态检索、深度学习、哈希学习等领域的发展历程基础上,深入分析了现有的基于深度哈希方法的跨模态检索的研究现状及存在的问题;(2)提出基于标签共现关系建立样本相似度矩阵的方法,解决了现有方法不能充分利用标签的语义信息,导致检索结果准确率不高的问题;(3)分析现有的深度哈希方法网络结构设计的特点,提出了一种整合特征提取和哈希码学习的统一框架。针对图像和文本数据各自的特点采用两个不同的深度神经网络分别提取图像和文本的语义特征,并在输出端通过标签语义关系建立关联,实现端到端学习;(4)在公开数据集MIRFlickr-25K上将DMSH与当前主流的跨模态哈希方法CCA、CMFH、STMH、SCM、SePH、DCMH进行充分的对比实验,对算法性能进行测评;(5)通过实验比较了 CNN-F、VGG-16、ResNet-50三种不同的卷积神经网络结构对检索结果的影响。实验表明,本文提出的DMSH方法在图像-文本跨模态检索任务上优于所对比的模型,并且在CNN-F网络上的检索结果优于VGG-16和ResNet-50。在此基础上,未来可在探索更好的融合标签语义信息的方法、挖掘更多语义信息、改进文本特征学习模块、改进网络结构以学习更好的特征表示等方面做进一步改进。