基于Lucene的站内检索系统的设计与优化

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:jianxiangqiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息技术与互联网技术的发展,接踵而来的则是信息量的爆炸式增长,人类社会已全面进入信息化的时代。人们在享受互联网进步带来的便利的同时,如何在海量信息数据中迅速找到符合用户需求的信息,成为了信息检索的关键技术。面对互联网内容的不断产生、更新或者消失,搜索引擎技术的诞生打破了互联网复杂的局面,为用户找到所需求的信息提供了有力的手段。Lucene作为开源搜索架构,具有开放、面向对象等优点,通过采用Lucene作为核心,从而构建出适用于不同环境下的独立的检索系统。本文通过对Lucene技术框架进行分析和研究,阐述了基于全文检索系统的检索方法及其基本原理,结合目前网站信息多样化的特点,分析了基于关系型数据库全文检索技术的不足,进而开发出一套实用性强、通用性高的站内全文检索系统,解决了网络用户的站内搜索需求。论文的工作和成果主要体现在以下几个方面:(1)深入分析了全文检索引擎Lucene的结构及原理,通过对Lucene的分词算法原理进行研究,结合中文语义设计并改进了中文分词器,构建了同义词词库引擎以实现自定义同义词检索功能。(2)针对Lucene只能对文本类型数据进行检索的特点,提出一种新的文本解析方法,该方法采用Tika文本解析器对信息进行抽取,用以建立索引,适用于各种类型文档。避免了针对不同文档使用多种解析器的复杂性。(3)设计了一个站内留言发布系统,用于对检索系统进行测试,该留言发布系统具有较为完善的内容发布机制,通过结合数据库的设计和检索系统的优化改进,实现了站内内容的搜索。(4)设计并实现搜索模块的扩展功能,如高亮搜索、近实时搜索和全文检索服务器Solr。近实时搜索的引入,使得系统中的内容能更快地被索引与搜索,减少了系统提交索引操作时所产生的开销,而高亮搜索和Solr的应用则提高了系统的稳定性和用户体验性。
其他文献
在已建立的理论数学模型的基础上,以1Cr18Ni9Ti不锈钢为研究对象,模拟预测了薄带钢连铸过程的主要工艺参数(浇注温度、浇注速度及熔池高度)对双辊薄带钢凝固组织中柱状晶区比
数据业务传输需求的不断发展,导致如今的网络已臃肿不堪,业务需求一旦发生变动,就需要重新修改配置相应的网络设备,这样的操作相当的繁琐。在这样的状况下近几年学者们提出了
通信信号调制方式识别是信号分析处理的一个重要的分支领域,它是通信电子战中通信信号侦察、监测和最佳干扰样式合成等技术的基础,也是该领域的研究课题之一。随着通信技术特
协作通信的基本思想是网络中各单天线用户共享彼此天线,从而有效地抵抗多径衰落。中继策略是协作通信中至关重要的问题。本文对协作通信中的基本协作模式、伙伴选择算法及协
无线网状网络自从问世以来就收到了业界的广泛关注。它不但涵盖了传统无线局域网技术中所具有的成本低、部署便捷的优点,同时,因为其本身具有无线自组织网络的多跳结构的特点
访问控制是信息安全保障机制的核心内容,着重于解决与数据机密性、完整性和可用性相关的问题。基于角色的访问控制模型RBAC是当前研究得较为深入的访问控制模型。RBAC模型中
智能光网络(ION)是当前光网络发展的趋势,它是一种具有自动交换传送连接等功能的光网络。智能光网络在传统的光传送网中,加入了智能化的控制平面的概念。通过控制平面的引入,
卫星导航信号本身的易干扰性严重影响了其性能的发挥,在面对人为干扰时便不能保证提供正确的导航信息。随着卫星导航系统在军事上的广泛应用,研究导航系统的抗干扰技术已成为
随着国家在信息化发展战略中明确指出以信息化促进工业化,以工业化带动信息化,未来几年,可预计的将会有越来越多的基础设施设备通过智能化的方式接入到信息化的大平台来。而
对于矿山井下人员定位系统,它主要的工作是通过读卡器对携带射频标签卡的工作人员进行信息采集,包括身份信息码和位置信息码,然后CAN总线上的智能节点将接收到的信息通过RS-2