基于维基百科的搜索结果挖掘

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:yzmxfyzm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今的互联网中,搜索引擎以其快速和直接的资源访问方式,得到了越来越多用户的青睐,并发挥着越来越重要的作用。而在搜索引擎中,搜索结果是其和用户交流的直接媒介,搜索结果的质量以及其展示的质量直接影响着用户的体验。本文主要的研究集中在搜索结果的挖掘上,更确切的说,是搜索结果的动态摘要生成和搜索结果的聚类两个方面。动态摘要是以查询词为中心的文档简要描述。在很多场景下,动态摘要可以通过对文档中的句子进行查询词相关的评分排序来生成。然而,由于缺乏更多信息或是背景知识,很多时候,度量某个查询词和文档中每一句话的相似度是一项很困难的任务。本文提出了一种新的结合了来自维基百科的语义信息的动态摘要生成方法,实验表明本方法所生成的动态摘要的质量得到了提高。另外,在文档中查询词出现次数相对较低的情况下,这种方法对于动态摘要质量提升的幅度尤其明显。另外,本工作还讨论了从维基百科中提取的概念向量长度对动态摘要质量的影响。针对某些查询词,特别是有歧义的查询词,搜索结果中可能包含多个不同方面的信息,而区分这些不同方面的信息并把它们聚合的技术就是搜索结果聚类技术。传统的聚类方法在聚类过程中通常使用简单的文本相似度,但是这种方法往往不能提供很有意义的聚类结果,并且无法给每个类别提供具有可读性的标题。本工作提出了一种基于维基百科知识的搜索结果聚类方法,此方法首先使用了维基百科的知识来把文本映射到维基百科的概念,并在此基础上进行聚类。实验证明该算法具有很好的效果。另外,还在实验中发现,非线性的机器学习方法如SVM等可以使聚类结果得到进一步的改善。实验表明,本文提出的方法在动态摘要生成方面以及搜索结果聚类方面分别都有比较好的表现,也证明在传统的文本检索中融入从知识库中提取的语义信息是很有意义的。此外,本文还分析了目前方法的不足之处并对进一步的研究进行了讨论。
其他文献
互联网的飞速发展使得其中的信息呈爆炸性增长,但互联网中的信息由于其本身的无结构性使人们很难找到自己有用的资源。如谷歌、百度等通用搜索引擎为我们提供大量的信息,但其中
一致化理论在自动推理、自然语言理解、逻辑证明、重写理论等研究领域中有着广泛的应用。目前语法一致化因子的产生算法和工具已经相对成熟,但还没有产生等价一致化因子的实
当今时代,嵌入式系统已经无处不在。从早期的通信设备、工业控制等领域已经很快的发展到与人们日常生活密切相关的电子产品领域中。同时,嵌入式系统也变的日益复杂,嵌入式操