基于Lucene的二次全文检索系统设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:haludahuaidan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化程度的提高,信息已呈现爆炸式的增长,人们希望快速精确检索信息的需求越发强烈。本文设计并实现了一个支持多格式文档检索的全文检索系统,通过引入其它开源工具:PDFBox API、POI,并对Lucene的核心索引模块加以修改,使系统在原来Lucene API只支持索引html, txt文件的基础上加入对doc, xls和pdf等的索引,实现了对多格式文档的全文检索要求。为了实现更精确的检索关键词定位,本文设计并实现了一种新的二次索引算法。该二次索引带有关键词的页码、坐标及其上下文等信息,利用该二次索引可将检索关键词定位到书籍的具体页,并在页面标示出关键字的具体位置。使对PDF文档的二次检索达到了类似Google Book的图书检索效果。试验结果表明,系统的一次检索和二次检索都达到了较高查全率和查准率,两次检索的响应时间都在毫秒级以内。系统的各项性能指标都能满足全文检索的应用需求,有较大的应用前景和商业推广价值。
其他文献
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
当前大数据时代,各类网络教学平台中,逐步储存起各类数据,并且海量地增长着。充分整合利用这些数据,作为教育决策依据,可提高决策的客观性、科学性。教育数据挖掘云系统,则是
在教师专业化背景下,随着九年义务教育的普及和小学入学人口的下降,培养高学历、高素质的小学教师成为教师教育发展的重点。从上个世纪末开始,我国教师教育体系开始转型,传统封闭
随着社会经济的快速发展,教育事业也需要不断发展和革新以适应当今社会的需要。在目前经济发展不平衡和社会分层条件下,不同社会阶层必然会存在着资源获取和占有的不平等。社会
自尊是建立在个体自我评价基础上的一种自我体验,对大学生的学习及社交有着直接的影响。在已有自尊研究的基础上,本研究以139名大学生为被试,采用实验和问卷调查相结合的方法,通
到访宏村,是多年前的五月,风日晴和的古徽州以她博大的胸襟广迎八方来客。我不远千里从宿州辗转到达黄山,为的即是追寻内心久远的梦乡。列车临近黄山时,已是傍晚时分,只见在
班组是煤矿最基本、最基层的组织单元,加强和改进班组建设是建设本质安全型矿井的需要。近年来,晋城煤业集团寺河矿结合高瓦斯千万吨现代化矿井实际,以深入开展“三无”班组
本文主要分析大农机在现代化大农业中的重要作用,文章主体分为四个部分。第一部分从五个方面详细说明了大农机在现代化大农业中的重要作用;第二部分概述了大农机在现代化大农业
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
工业化的发展大大的推动了社会经济的发展,但是随之而来的一系列的污染问题也要引起重视,人们也逐渐意识到保护环境的重要性,人工造林项目就是针对这些问题而展开的。但是以