论文部分内容阅读
伴随着信息技术与互联网技术的发展,接踵而来的则是信息量的爆炸式增长,人类社会已全面进入信息化的时代。人们在享受互联网进步带来的便利的同时,如何在海量信息数据中迅速找到符合用户需求的信息,成为了信息检索的关键技术。面对互联网内容的不断产生、更新或者消失,搜索引擎技术的诞生打破了互联网复杂的局面,为用户找到所需求的信息提供了有力的手段。Lucene作为开源搜索架构,具有开放、面向对象等优点,通过采用Lucene作为核心,从而构建出适用于不同环境下的独立的检索系统。本文通过对Lucene技术框架进行分析和研究,阐述了基于全文检索系统的检索方法及其基本原理,结合目前网站信息多样化的特点,分析了基于关系型数据库全文检索技术的不足,进而开发出一套实用性强、通用性高的站内全文检索系统,解决了网络用户的站内搜索需求。论文的工作和成果主要体现在以下几个方面:(1)深入分析了全文检索引擎Lucene的结构及原理,通过对Lucene的分词算法原理进行研究,结合中文语义设计并改进了中文分词器,构建了同义词词库引擎以实现自定义同义词检索功能。(2)针对Lucene只能对文本类型数据进行检索的特点,提出一种新的文本解析方法,该方法采用Tika文本解析器对信息进行抽取,用以建立索引,适用于各种类型文档。避免了针对不同文档使用多种解析器的复杂性。(3)设计了一个站内留言发布系统,用于对检索系统进行测试,该留言发布系统具有较为完善的内容发布机制,通过结合数据库的设计和检索系统的优化改进,实现了站内内容的搜索。(4)设计并实现搜索模块的扩展功能,如高亮搜索、近实时搜索和全文检索服务器Solr。近实时搜索的引入,使得系统中的内容能更快地被索引与搜索,减少了系统提交索引操作时所产生的开销,而高亮搜索和Solr的应用则提高了系统的稳定性和用户体验性。