论文部分内容阅读
当下,人们对于多媒体数据的需求日益增加,对多媒体数据精准、有效的检索也随之成为重要的研究方向。传统的基于关键词匹配的检索方法较为粗略,且随着互联网数据的爆发式增加,为数据人为添加标签也变得成本极高,难以实现。而基于内容的多媒体数据检索方法因为其便利性、准确性等优点,被越来越多地采用、研究。该系统的要点在于对输入数据进行内容分析,现在大多是采用深度神经网络对数据进行特征提取来实现。本文要解决的主要问题就是多媒体数据检索,方法是利用度量学习训练神经网络作为映射函数,映射多媒体数据到公共特征空间中,且具有相似内容的样本在空间中距离接近。现有的基于深度学习的检索模型多是将样本直接输入神经网络提取特征,但是通常来说,输入样本的不同部分并不都是有利于检索的,如图像的背景和遮挡。如何识别并提取输入样本的重要部分,免受噪声区域的影响,是所有检索系统面临的挑战。本文我们采用注意力模型来提升特征提取的效果。具体而言,本文构建了两个基于神经网络利用特征度量关系进行检索的系统:基于注意力的服装图像检索系统,能很好地完成服装图像的同域和跨域检索任务;基于通用性注意力的跨模态检索系统,主要解决图像和文本两种模态间的跨模态检索问题。我们构建了一套基于注意力网络的高精度服装检索系统。该系统采用一个视觉注意模型从服装图像中提取注意力图并结合到主网络的中间特征图,削弱特征图中的噪声区域特征,强化输出特征。我们提出Impdrop连接方式来将注意力模型与主网络连接成为一套端对端的网络结构,Impdrop连接通过为注意力模型引入随机性的方式提升系统的训练效果。在不同数据集上的多组实验证明了我们方法的有效性。我们在服务器上搭建了一个服装图像检索演示系统,该检索演示系统可以通过网址http://202.120.39.165:9998来访问。针对现在人们日趋增长的跨媒体检索需求,本文以图像和中文文本间的基于内容的检索任务为应用场景,提出了一套基于通用性注意力的跨模态检索模型。图像和中文文本属于不同的模态,为了解决不同模态媒体的“间隙”,我们为图像和中文文本设计了不同的映射网络,将两种媒体映射到同一个公共度量空间,并根据样本在空间中的距离进行检索。对于跨模态检索任务,我们还设计了一套基于长短期记忆网络的通用性注意力模型,能够自动检测输入样本中重要的区域并提高映射函数的效果。最后我们实现了该系统并在实验中验证了其有效性。