基于文档重构的查询扩展

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zibinxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
快速发展的互联网技术为人们带来了丰富的信息资源,但同时也为信息的查找带来了困难,信息检索系统就是为了解决这一问题而产生的。但是检索过程中存在过多的干扰因素,如同义词、近义词,用户在交互界面输入的信息不准确等,这些都能降低检索的准确率和召回率。为了提高信息检索的性能,20世纪70年代提出了查询扩展技术,这一技术的出现引起了研究人员的重视,具有一定的研究意义和实用价值。本文的主要工作包括以下几个部分:第一,概述了查询扩展技术的研究现状、背景及意义,介绍向量空间模型和基于全局分析的、基于局部分析的、基于用户查询日志的和基于语义词典的查询扩展技术的基本原理、适用条件及检索性能,分析了它们的优缺点。第二,提出了基于文档重构的查询扩展方法。选择局部上下文分析方法作为研究对象,针对其依赖于初次检索文档相关性的缺陷进行改进,将文档重构思想与语义词典相结合,对查询词进行扩展后再进行第一次检索,提高初检结果文档集的相关性。基于文档重构的查询扩展方法的基本思想是:首先将文档重构思想与语义词典结合,限制扩展的层数,在WordNet中计算概念之间的相似度,选择相似度高的词语作为查询词的语义扩展词集,以提高初次检索的准确率和召回率。然后对最终的文档集的前n篇文档进行重新组织和排序,提高P@N的结果,满足用户的检索需求。第三,将查询扩展模块与开源框架Nutch结合,通过计算输入的测试集返回的文档集的评价指标,对该系统与传统非扩展检索系统、基于局部上下文分析方法的检索系统进行对比,证明了其在检索性能方面有相对的提高。
其他文献
随着网络数据量急剧增加,人们无可避免的进入大数据时代,同时面临“数据爆炸”与“知识匮乏”的双重挑战。以新闻报道为例,当有突发新闻事件爆发时,用户会瞬间淹没于网络上铺
随着计算机的普及和网络技术的发展,人们可以通过网络方便地交流各种信息。数字图像比其它信息具有直观、形象的特点,已经被人们广为利用。数字图像数据由于其本身所固有的如数
以校园网为背景的校园网格的创建有利于校园网的资源整合。本文主要对校园网格的资源搜索方法进行研究。在分析了几种典型的网格资源管理模型(分层模型、抽象所有者模型、市
“金税”工程是我国电子政务“十二金”工程中的重中之重,早在1994年就被列为“三金工程”之一,是我国政府机关最早实现信息化的系统之一。税务信息化历经多年发展,由“金税一期
随着信息产业的不断发展,数据库技术已广泛深入到国民生活的各个领域,以数据库为基础的信息系统已经在我国信息化建设的进程中发挥了相当重要的作用。随着数据库应用的不断深
WebGIS(万维网地理信息系统)可以将分布在不同地域空间的地理信息按照系统化、结构化、一体化的运行机制进行组织,并对其进行管理,从而实现查询分析、统计测量、生成决策信息等
随着信息技术的发展,信息系统已成为人们工作、生活的重要资源。但是信息系统面临威胁日益严重,存在的脆弱性能越来越多,无论人们采取多么完善的信息安全技术和安全措施,依旧难以
分布式数据库系统是比较成熟的数据库技术,在实际中得到了广泛的应用。由于分布式数据库地理位置的分布常会引发数据不一致性问题,如何解决该问题,有效维护数据一致性,就成为数据
计算机网络技术的应用,促进了期刊资源数字化的迅速发展。提高了期刊资源的采集、传输、存储、应用的技术水平。但是由于知识版权、数据加工时间、资源提供者(期刊编辑部)和资
随着Internet的发展,现代软件的设计模式发生了巨大变化。异构平台间信息的交换与共享是现代软件急需解决的课题。 北京市农村水资源费征收系统正是在这种环境下应运而生的