面向水路基础数据库平台的Lucene全文检索技术研究

来源 :大连海事大学 | 被引量 : 3次 | 上传用户:RRR6670
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二十一世纪是一个信息化、网络化的时代,人们可以时时感受到足不出户就可以进行办公、交友等活动带来的巨大的好处。但在信息数据量膨胀的时代,面对着海量的数据,如何快速的从中查找到有用的的数据,成为信息化数据管理亟待解决的问题。对待从海量数据中快速获取到有意义数据的主要方法就是使用信息检索技术,而为待检索数据创建索引然后对索引进行检索的全文检索技术在对海量数据检索上又有着很大的优势。本文结合需求对全文检索及Lucene全文检索框架进行研究,设计实现了一个面向水路基础数据库平台的Lucene全文检索系统,检索用户可以在检索页面输入检索关键字即可对数据资源进行全文检索。本文研究全文检索技术所依托的背景系统水路基础数据库平台具有如下特点:1、具有水路运输相关专业性;2、多种数据源(Word文档、PDF文档、Excel文档、数据库记录数据等);3、数据源为中文办公文献资料及数据库记录等。本文对基于Java语言的开源全文检索架构Lucene进行了深入的研究,根据全文检索技术所要应用的系统平台的特点,对Lucene全文检索框架进行功能上的扩充。如Lucene自带的两个中文分析器不能有效的对中文进行切分过滤等处理,所以本文对Lucene自带的中文分析器进行了分析改进以迎合本水路数据全文检索的需求;又如Lucene只能够对文本数据进行解析处理,而待索引的数据多种格式的文档数据,所以本文研究设计了一个对多种常用格式的文档数据解析处理的接口,它可以很好的解决不同格式文档索引问题。再如本文针对水路基础数据库平台的多数据库特点,设计了一个全局跨库数据检索的模块,以整合多数据库数据,实现一点式数据检索,这样的设计大大的减少用户检索数据的复杂度。本文结合水路基础数据库平台的特点对Lucene全文检索的关键技术进行了深入的研究,并以此为基础进行了详细的分析设计,并对其给予实现。
其他文献
我县湘波乡茶场,于1965年建场,共发展茶园370亩,其中常年投产茶园300亩,良种幼茶47亩。该场由于大部分茶园是大搞群众运动开荒种植的,建园标准低,茶园耕作层浅,土壤肥力低。
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
随着产业经济的日益发展,技术创新已成为推动产业升级和企业绩效提高的关键驱动力。然而,由于技术创新内在的复杂性以及知识、信息技术的飞速发展,企业的技术创新过程迫切需要各
本文通过对荣华二采区10
根据体育特点报道体育“体育报道无非是老一套的比分、成绩,一般化。”从某种意义上,是说对了,是击中了体育报道的弊病。问题是,体育运动本身就只能写成一般化呢,还是我们记
电影、戏曲、话剧和舞剧的录音剪辑,是很受广大听众欢迎的一种节目形式。播音员在其中担负着繁重的解说任务。我们在拿到这种稿件后,如何去掌握它呢? 首先,对你所要解说的电
水稻生产是我县粮食作物的大头,稻田面积占全县耕地面积(土普量算面积)的58·8%,水稻产量却占粮食总产75—80%之间,平均亩产还不到600斤。经过土普查清,主要原因是低产田面
通过家政服务国内外研究及发展的对比分析,发现我国家政服务与国外相比还有很大的差距,其中最主要的表现就是服务质量得不到保证。根据服务质量理论,服务质量可以分为实体质量、
随着茶叶生产的发展,茶叶产销情况起了变化,部分茶类供应不足,某些茶类产大于销,为适应当前国内外茶叶市场的变化,调整茶类结构,挖掘生产潜力,恢复传统生产茶类,以促进产销
党的三中全会以来我院教学、科研工作得到了迅速的发展,教学水平逐步提高,科研成果不断出现,为新疆农牧业生产做出了一定的贡献,受到有关单位、科技人员和使用单位的好评,并