论文部分内容阅读
面对互联网上呈爆炸式增长的海量数据,搜索功能已成为网络应用中不可或缺的一环。用户在进行网络搜索时,会向搜索引擎提交一个“查询”来表达他们的信息需求,搜索引擎通过计算,把那些与查询相关度高的结果返回给用户。查询通常是文字形式的,由一些关键词组成,由于每个关键词都可能包含多重含义,查询本身可能存在歧义。另一方面,用户趋向于提交简短的查询,而不是用较多的词来详细、清楚地描述他们的需求,这又扩大了查询涵盖的内容范围。因此,即使是用户自己提交的查询,有时也不能准确地表达他们心里真正想要的内容,这进一步提高了搜索引擎返回符合用户需求结果的难度。为了解决这一问题,我们需要发掘用户对于一个模棱两可的查询不同的搜索意图。在获取用户意图后,搜索引擎就能据此调整搜索结果的先后位置或整体布局,提高搜索性能,改善用户体验。
本文的研究内容为发掘文本检索与图像检索中的用户搜索意图。主要创新点在于提出挖掘用户搜索时的两种点击信息(即点击内容信息和点击序列信息)来发掘用户搜索意图,并提出两种策略(即重采样策略和半监督策略)将这两种信息有效地结合起来。具体的创新性研究成果包括以下三个方面:
首先,本文提出一种文本检索中的用户搜索意图发掘新方法。用户在搜索时的点击信息代表了用户的反馈,如何对其中的有用信息进行充分挖掘成为了首要问题。本文提出同时挖掘利用两种点击信息来发掘用户的搜索意图,即用户的点击内容信息和点击序列信息。点击内容信息为用户点击过的文档自身的文本信息,点击序列信息指包含在同一点击序列中的文档相互间的相关性信息。然后,在如何描述点击序列信息这个问题上,本文提出“反馈序列”的概念,不但考虑了用户点击过的文档,还考虑了部分未点击的文档,从而更准确地把握住用户需求什么和不需求什么。接着,为了将点击内容信息和点击序列信息有效地结合起来,本文提出“目标文档”的概念和一个优化算法,将用户的反馈序列映射为目标文档(重采样策略),表达了单个用户的信息需求。最后,用户意图个数的确定也是难点之一。本文提出了“分类平均准确率”的评估方法来评价用户意图发掘的好坏,从而确定每个查询最优的用户意图个数。基于雅虎数据的实验结果证明了我们的方法能有效地发掘出文本检索中的用户意图。
其次,本文提出一种图像检索中的用户搜索意图发掘新方法。现有的图像搜索意图发掘方法主要是基于图像外部文本信息的,考虑到这些外部文本不一定可靠且不一定可获取,本文提出基于图像视觉信息来发掘用户的图像搜索意图,即把用户点击过的图像的视觉信息作为点击内容信息。然而图像的视觉信息与语义内容间存在语义鸿沟,要跨越这一语义鸿沟是一大难题。本文提出利用用户的点击序列信息来弥补这一鸿沟。为了将图像视觉信息与点击序列信息这两种完全不同的信息有效地结合起来,本文提出“目标图像”的概念和新的图像特征融合方法,把用户的点击序列映射为目标图像,表达了单个用户视觉上的信息需求。最后,在确定图像检索中用户意图个数的问题上,本文提出基于“用户不同意”的评估方法来评价图像搜索意图发掘的好坏,以此确定最优的用户意图个数。实验结果证明了我们的方法能有效地发掘出图像检索中的用户意图。
最后,本文提出半监督策略来结合图像的视觉信息和用户的点击序列信息,从而发掘图像检索中的用户意图。通过以上两种信息,我们可以得到两种图像间的相似度描述,这两种相似度不能简单地相加,如何实现多相似度下的聚类成为了难点之一。本文提出将用户的点击序列信息作为一种半监督信息来指导我们对用户点击过的图像进行聚类,从而很好地解决了这一问题。代表不同用户意图的类在图像视觉特征空间上的形状是任意的,而很多传统的聚类方法如K均值聚类只适用于球型簇,这给聚类方法的选择带来了很大的限制。本文提出采用谱聚类方法来对图像进行聚类,既解决了任意簇形状的问题,又使得在利用不同相似度描述时更为灵活。基于百度数据的实验结果证明了我们的这一方法同样能发掘出准确的用户搜索意图。