论文部分内容阅读
当前主流的搜索引擎主要利用文本信息对网络上的网页以及文档进行有效的索引和检索。然而,文本信息受限于不同语言的“巴别塔”问题,并且对于事件陈述缺乏生动性和真实性。与此同时,基于视觉信息的多媒体数据则可以通过图像和视频来弥补上述不足,因为他们更加直观、丰富、生动和真切。近期,伴随着网络上新闻,电子商务,个人日志以及社会化网络的迅猛发展,网页制作人员和普通用户生成的多媒体数据在整个网络中爆炸式增长,使得对于网络多媒体数据的智能管理和搜索的需求变得日益紧迫。如今,多媒体搜索已经逐渐成为未来搜索引擎最关键的组成部分之一。 本论文将重点讨论如何对于用户给定的文本查询有效对网络上数以千亿计的图像进行搜索排序。同时,本文所涉及的方法也可以直接应用于网络视频数据。目前,工业界中的网络图像搜索的实现方法是将图像看作一个文档,根据其所在网页中的属性文字以及环绕文字来对其进行索引和排序。然而,文本信息充满着噪声,诸如文本缺失,错误匹配以及语言歧义。使得基于文本特征的图像排序面临巨大的困难。同时,图像搜索是互联网搜索的一个特殊的垂直域,其数据的分布与传统网页搜索具有一定的差异性,而已有工作并未有效探讨这两个数据域之间的关系以及如何利用这种关系来提高图像搜索的性能。更重要的是,图像搜索的目标是返回用户所感兴趣的网络图像,而当前的方法仅仅采用基于网页搜索的算法来优化文本查询与图像之间的主题相关度,图像的视觉内容信息以及用户的搜索需求并没有予以考虑。 在本文中,我们将提出一系列的算法来分析和解决上述图像搜索中的关键问题。首先,围绕当今工业界广泛采用的基于文本信息的排序学习框架,我们尝试分析网页和图像搜索间不同垂直域的关系,以借助这种关系来提升图像垂直域的排序性能。进一步,为了能够消除文本噪声对排序模型带来的负面影响,我们在排序模型中引入图像的视觉内容信息,望其能在模型学习和预测的过程中提高排序模型的性能。接着,我们对于图像搜索用户的信息需求进行调研和分类,并通过在排序中引入视觉吸引力来更好的满足用户在图像搜索时的信息需求。最后,文章探索图像搜索的本质问题,即基于人工智能和语义分析的图像高层概念理解,从图像数据分布假设,度量学习,以及大规模数据下的模型优化三个方面提出了一系列基于高层概念检测的图像搜索算法,并讨论这些算法在图像搜索实际应用中的有效性及其存在的问题。本文的贡献可以被总结为如下四个方面: ·根据现行的基于文本排序学习的搜索框架,我们深入分析网页和图像搜索不同垂直域的差异和共性,并首次提出利用已有的网页搜索模型,通过迁移学习算法来帮助图像搜索排序模型的构建,以便在达到目标排序性能的同时减少人工标注和模型训练的代价。在两个大型排序学习数据集上的实验结果证明,通过迁移网页搜索模型,我们可以在较少的标注量的同时得到鲁棒的图像搜索模型。 ·为了缓解文本信息的噪声,我们在基于文本的排序模型中引入了图像的视觉内容信息。我们假设视觉相似的图像具有相似的排序(即视觉一致性假设)。我们通过流形正则化对这个假设进行建模,将他与基于结构化输出的最大化间隔排序学习算法融合,得到了内容感知排序算法(Content-AwareRanking)。在大规模图像排序学习数据集上的实验结果证明,内容感知排序能够更好的提高文本排序模型的鲁棒性,并相对于视觉重排序性能更加出色。 ·为了进一步满足用户在图像搜索中的信息需求,我们对于用户如何比较评价不同搜索引擎的结果进行了用户调研。结果发现,主题相关度已经不是区别图像搜索结果好坏的首要因素,而吸引力相比之下则更为重要。因此,我们提出一系列的基于视觉和网页上下文的特征来估计视觉吸引力,并首次提出将吸引力应用于网络图像搜索的不同模块,包括交互重排序,排序模型以及索引选择。在三个大规模图像搜索数据上的实验证明,将视觉吸引力引入排序模型能够在满足主题相关度的同时,尽可能多的返回吸引人的图像,从而更好的满足用户的搜索需求。 ·为了能够从本质上解决图像搜索问题,我们尝试直接根据图像视觉内容分析其语义,探索基于高层概念检测的搜索模型。针对图像视觉信息的高维度特征、图像相似度计算问题以及小样本问题,我们分别设计提出组合流形正则化(Ensemble Manifold Regularization),域迁移度量学习算法(DomainAdaptation Metric Learning)和并行模型优化(Parallel Lasso),依次通过低维度的几何流形空间进行数据分布先验假设,相似度学习和大规模并行优化来提出三种算法,以减小过拟合问题。我们在不同的高层概念检测数据集上发现,这些算法相对于传统的概念检测算法能够有效提高检测的性能,但是,其准确度及可扩展性仍然无法满足搜索引擎的需求,并且需要进行进一步的研究工作才能投入实际应用。