基于维基百科的垂直搜索查询扩展问题研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:lindan1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展导致了“信息爆炸”这个现象的出现,人们想要获得自己需要的信息的复杂度越来越高。传统搜索引擎的出现给人们的生活和工作带来了很大的便利,但是随着互联网产业和其他产业的发展,人们的需求在不断的细分,人们对于信息获取的需求也在不断的细分,所以当用户使用传统搜索引擎时,真正需要的信息也往往被埋没在信息量巨大的各种网页搜索结果中,并且对于相关领域搜索结果的深度和广度并没有能够满足用户的需要,所以出现了垂直搜索引擎。垂直搜索引擎相对传统搜索引擎而言更加的专注于某一个领域或者某一个主题,因此对于某个领域或者某个主题下,垂直搜索在查准率和查全率上比传统搜索理所当然更有优势。   在垂直搜索中,用户仅通过输入的有限个关键字很难准确表达需求,从而出现词不达意现象,因此导致了搜索的查准率降低。其中有很多方法可以用来解决这个问题,其中的一种方法就是采用查询扩展技术来试图更加准确的描述需求。本文提出了一种基于维基百科的查询扩展方法,首先分析维基百科中的词条与词条之间的相互链接关系,然后通过模拟人类联想的方式进行扩展,将查询扩展后的结果生成新的查询语句再去查询。本文主要是通过基于词频统计的方法来确定是否需要加入查询扩展词中。具体方法是将维基百科的半结构化的数据抽象为两种模型,分别是页面链接网和类别网,然后利用基于词频统计的相关算法确定词条与词条之间的相关关系,利用这种相关关系的强弱,筛选出合适的查询扩展词。并且使用了类别网对扩展词的范围进行了规约。   最后,本文实现了一个面向计算机纸质图书的垂直搜索系统,并将基于维基百科的查询扩展方法结合其中,用来验证本文提出的方法的正确性,即通过基于维基百科的查询扩展方法可以提高垂直搜索的查准率。本文实现的垂直搜索系统的特点有系统提供的基于维基百科的查询扩展技术弥补了用户输入信息不足的缺陷,提高了该垂直搜索系统的查准率。
其他文献
随着经济和技术的迅速发展、网络购物等的逐渐流行,运输服务的作用日益显著,成为商业和日常生活的基础环节。车辆路径优化问题主要研究车辆路线的安排,以降低运输成本、节约
随着水资源可持续发展的需要,天然水资源在空间上和时间上的再分配引起各国的广泛重视。水坝的建造是水资源再分配的重要手段,但随之而来的洪水、大坝形变和渗透等安全问题严重
容迟网络(DTN)指具有延迟大、错误率高、间断性连接等通信特征的网络,其研究起源于上世纪美国国防研究部对星际网络的研究。2003年,Kevin Fall在国际会议上正式地提出了容迟网
场景分类是计算机视觉领域的研究热点以及难点,在图像检索、视频检索、医学应用和旅游导航等诸多领域有着重要的意义以及广阔的应用前景。图像自动分类与图像检索将成为未来
为了获取更好的性能,传统的linux设备驱动运行在内核空间,可以方便的取得内核的服务,但是这也造成了系统可靠性的降低,而随着硬件技术的快速发展,可靠性越来越成为制约系统发展的
随着手机的普及以及互联网的不断发展,图像的使用量大大增加,图像的像素数量以及图像的质量也逐渐提高,如何更加快速地处理图像成为了图像处理领域的一个重要研究方向。由于数字图像信息的连续性,图像中存在着大量的冗余信息,许多相邻像素具有相似的颜色和纹理。图像超像素分割是提高图像处理速度的一个重要手段,它将相邻的相似像素作为一个整体称为超像素,超像素取代像素作为图像处理的基本单元,由此可以提高图像处理的效率
学位
程序的等价测评技术在当今软件领域有着广泛的应用范围,在计算机学科基础教育领域中,如程序作业的测评、程序设计的在线考试、代码抄袭判定等。国内外比较常见的有基于程序属
由于点云在虚拟现实、机器视觉、医疗技术、数据可视化等领域中具有更广泛的应用前景,随着点云设备的普及,给基于点云的面绘制方法的研究带来了新的挑战和机遇。为此,本文基于三
随着现代计算机系统的发展以及计算机软件在社会各领域中的广泛应用,软件的规模不断扩大,复杂度越来越高,不免会存在一些缺陷。随着社会生产生活的日益信息化,人们对软件功能
信号发生器广泛应用于电子电路、工业生产和科学工程领域,随着科学技术的发展和测量技术的进步,对信号源的频谱纯度、频率稳定性、带宽范围以及信号波形的种类等提出了越来越