论文部分内容阅读
在当今的互联网中,搜索引擎以其快速和直接的资源访问方式,得到了越来越多用户的青睐,并发挥着越来越重要的作用。而在搜索引擎中,搜索结果是其和用户交流的直接媒介,搜索结果的质量以及其展示的质量直接影响着用户的体验。本文主要的研究集中在搜索结果的挖掘上,更确切的说,是搜索结果的动态摘要生成和搜索结果的聚类两个方面。动态摘要是以查询词为中心的文档简要描述。在很多场景下,动态摘要可以通过对文档中的句子进行查询词相关的评分排序来生成。然而,由于缺乏更多信息或是背景知识,很多时候,度量某个查询词和文档中每一句话的相似度是一项很困难的任务。本文提出了一种新的结合了来自维基百科的语义信息的动态摘要生成方法,实验表明本方法所生成的动态摘要的质量得到了提高。另外,在文档中查询词出现次数相对较低的情况下,这种方法对于动态摘要质量提升的幅度尤其明显。另外,本工作还讨论了从维基百科中提取的概念向量长度对动态摘要质量的影响。针对某些查询词,特别是有歧义的查询词,搜索结果中可能包含多个不同方面的信息,而区分这些不同方面的信息并把它们聚合的技术就是搜索结果聚类技术。传统的聚类方法在聚类过程中通常使用简单的文本相似度,但是这种方法往往不能提供很有意义的聚类结果,并且无法给每个类别提供具有可读性的标题。本工作提出了一种基于维基百科知识的搜索结果聚类方法,此方法首先使用了维基百科的知识来把文本映射到维基百科的概念,并在此基础上进行聚类。实验证明该算法具有很好的效果。另外,还在实验中发现,非线性的机器学习方法如SVM等可以使聚类结果得到进一步的改善。实验表明,本文提出的方法在动态摘要生成方面以及搜索结果聚类方面分别都有比较好的表现,也证明在传统的文本检索中融入从知识库中提取的语义信息是很有意义的。此外,本文还分析了目前方法的不足之处并对进一步的研究进行了讨论。