论文部分内容阅读
互联网的飞速发展导致了“信息爆炸”这个现象的出现,人们想要获得自己需要的信息的复杂度越来越高。传统搜索引擎的出现给人们的生活和工作带来了很大的便利,但是随着互联网产业和其他产业的发展,人们的需求在不断的细分,人们对于信息获取的需求也在不断的细分,所以当用户使用传统搜索引擎时,真正需要的信息也往往被埋没在信息量巨大的各种网页搜索结果中,并且对于相关领域搜索结果的深度和广度并没有能够满足用户的需要,所以出现了垂直搜索引擎。垂直搜索引擎相对传统搜索引擎而言更加的专注于某一个领域或者某一个主题,因此对于某个领域或者某个主题下,垂直搜索在查准率和查全率上比传统搜索理所当然更有优势。
在垂直搜索中,用户仅通过输入的有限个关键字很难准确表达需求,从而出现词不达意现象,因此导致了搜索的查准率降低。其中有很多方法可以用来解决这个问题,其中的一种方法就是采用查询扩展技术来试图更加准确的描述需求。本文提出了一种基于维基百科的查询扩展方法,首先分析维基百科中的词条与词条之间的相互链接关系,然后通过模拟人类联想的方式进行扩展,将查询扩展后的结果生成新的查询语句再去查询。本文主要是通过基于词频统计的方法来确定是否需要加入查询扩展词中。具体方法是将维基百科的半结构化的数据抽象为两种模型,分别是页面链接网和类别网,然后利用基于词频统计的相关算法确定词条与词条之间的相关关系,利用这种相关关系的强弱,筛选出合适的查询扩展词。并且使用了类别网对扩展词的范围进行了规约。
最后,本文实现了一个面向计算机纸质图书的垂直搜索系统,并将基于维基百科的查询扩展方法结合其中,用来验证本文提出的方法的正确性,即通过基于维基百科的查询扩展方法可以提高垂直搜索的查准率。本文实现的垂直搜索系统的特点有系统提供的基于维基百科的查询扩展技术弥补了用户输入信息不足的缺陷,提高了该垂直搜索系统的查准率。