论文部分内容阅读
近些年来随着互联网的发展,网络上出现的数据呈现出爆炸式的增长,特别是图像数据。图像具有直观、生动的特性,且与人类生活息息相关,因此如何能够准确地获取所需图像信息是当前多媒体搜索领域需要重点解决的问题。目前主流的搜索引擎主要是依靠图像的标题、描述等元数据信息进行基于文字信息的图像搜索,并没有利用图像的视觉特性,因此搜索结果并不理想。为了使结果更加符合用户的需求,图像搜索重排序算法被提出应用于图像搜索领域。该技术是指在原始文本搜索的基础之上,再次结合图像本身的信息对原始的重排序结果进行重新重排序,以提高用户的搜索体验。目前的大多工作围绕图像的相关性搜索重排序展开,对多样性搜索重排序的研究较少。相关性重排序是指对于返回结果来说,都是将相关的样本排在结果集的前列,但是很少考虑样本相互之间的联系,而多样性重排序是为了提高返回结果的多样性,也就是覆盖主题的多样性,以降低相关重排序中带来的信息冗余问题。本文主要利用随机游走模型实现图像搜索的多样性重排序。具体工作如下:1)实现了基于图像的搜索相关性重排序算法,能够使产生的结果按照相关性进行重排序。2)提出了基于DivRank算法的图像多样性重排序算法。DivRank是自定义的随机游走模型,通过引入访问次数随时间增长的马尔科夫数学模型来完成多样性重排,能够有效的降低搜索结果之间的冗余信息。为此,我们将其应用于图像领域并提出相应的GDRID算法。3)提出了基于DDRank的图像多样性重排序算法。DDRank是基于DivRank算法的改进,它通过修改初始重排序的权值来降低DivRank所带来的永久破坏原始信息网络结构的副作用,能够在保证多样性的基础上兼顾相关性。为此,我们将其应用在图像领域并提出相应的DIR算法。通过在MSRA_V-1.0等数据库上的大规模实验,表明所提GDRID和DIR算法能够在有效保持图像搜索相关性的前提下,提高多样性性能。