论文部分内容阅读
互联网图像的检索问题一直是多媒体领域的研究重点,大量的研究工作以提升用户的检索效率为宗旨,致力于快速而准确地为用户提供匹配度高的内容。但近年来的研究成果表明,用户在进行检索的过程中,往往对所需内容没有明确概念,需要检索机提供大量可供选择的相关内容,引导其顺利地获取所需结果。此外,互联网技术的飞速发展,使网络中数据的模态千差万别,由其中内容描述、互联关系等方面资源构成的多元数据,为图像检索技术带来契机与挑战。基于多样性的检索技术能够对网络中的多模态信息进行归纳整合,充分挖掘各实体的共性与个性。同时,该技术能够分析查询信息所包含的多方面内容,通过展示查询词各个侧面的宏观图景,帮助用户快速定位到所需的结果。现有的图像多样性检索算法,关注于图像底层特征之间的关系,难以有效地挖掘图像内在语义信息,当处理自然场景图像,面对比较严重的语义鸿沟现象时,如何设计有效的多样性检索算法,准确地反映查询词多视角内容,还有待深入研究。此外,多媒体技术的发展、多元数据的大量出现,也需要提出新方法来整合新的数据类型。基于此,论文针对不同类型的多元数据,充分考虑在不同场景下的应用问题,分别针对通用图像、尺度变化图像、无关信息包围图像以及多元信息混合图像四种类型,从特征提取、多元特征融合、连续视觉信息建模与多元数据联合推理四个方面,对多样性图像检索问题进行了较系统地研究。本文主要内容概括如下:针对传统文本特征判别性较弱的问题,本文提出了一种基于判别信息与模态融合的图像多样性索检算法。图像的标注信息中存在的误标记与重复标记的信息,会对检索结果产生负面影响。为此,本文提出了一种基于多样性的文本特征提取算法。首先,利用训练数据中每幅图像的类别信息,通过最大化类间差异代价函数的方式,学习出合适的阈值。其次,将图像文本信息的词频按阈值划分为共有词和独有词,利用社交媒体词频矩阵作为先验信息,转化为文本特征。最后,对测试图像集,先利用视觉信息进行主题分析,在每一主题中,构建文本特征邻接图,通过剔除与各类距离较远点的方式,来提升聚类质量。实验结果表明,我们所提出的特征提取方法,能够有效地提取出图像多样性特征,并提升检索结果的多样性指标。针对图像中由于主要目标尺度变化而造成的特征匹配问题,本文提出了一种基于区域特征分析的图像多样性检索算法。针对类型相同、目标尺度不同的图像,现有方法往往难以准确构建图像间的相似性关系,此外,对多元特征进行加权融合的方式,也难以使不同模态信息发挥其最大功效。为此,本文提出了一种基于高层语义特征与多样性文本特征相结合的图像检索框架。首先,对图像进行区域分割,在每个图像块中提取其局部特征并量化为视觉单词。其次,以图像块作为文档,特征点作为单词,构建隐狄利克雷模型,将图像分配到不同主题之中。最后,在每个主题内,我们提出了基于文本特征的三阶段策略来提升主题中元素的相关性。大量对比实验结果表明,我们所提出的框架能够更有效地融合视觉与文本信息,在三种主流评价指标上都取得了良好的效果。针对视觉特征在建模过程中的量化误差问题,本文提出了一种基于完整信息建模的图像多样性检索算法。传统的主题模型在建模时,需要对连续视觉特征进行量化,此过程必将导致信息丢失。为此,本文提出了一种基于高斯分布的多样性检索框架,对连续的视觉特征进行建模。首先,提取区域局部视觉特征,并根据特征的维度初始化高斯分布的均值与方差。其次,构建高斯-隐狄利克雷模型并生成区域的主题特征。最后,采用双层谱聚类算法,将主题特征转化为图像集合。实验结果表明,我们所提出的方法,在背景复杂、具有挑战性的景点中,能够取得较好的检索结果。针对传统主题模型无法表示高阶语义以及难以利用多元信息的问题,本文提出了一种基于多主题语义模型的图像多样性检索算法。传统主题模型只能得到特征点主题,而图像的主题则以直方图的形式来表示,在实际情况下,这种直方图分布往往对应着确定的高阶主题(图像主题)。为此,本文提出了一种利用交互数据与视觉特征推理图像高阶主题的模型。首先,根据狄利克雷先验参数初始化双层主题关系矩阵。其次,利用预学习到的参数将元数据整合为交互分数。最后,通过多层模型的迭代过程同时求解图像的高阶主题与特征点的低阶主题。在通用数据库上的实验结果表明,我们所提出的方法能够利用交互数据提升检索结果,同时准确获得图像对应的主题。综上所述,本文从多样性特征提取、多元信息融合、连续视觉信息建模与多元数据联合建模四个方面,提出了四种不同算法,用于解决不同场景下的图像多样性检索问题,进而同步提升检索结果的多样性和相关性。大量实验结果与实验对比表明我们所提出方法的有效性。