一种基于Lucene的文档检索系统的研究及应用

来源 :大连交通大学 | 被引量 : 0次 | 上传用户:tobay1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文检索是现代信息检索技术的一个非常重要的分支,它既是处理非结构化数据的强大工具,也是现代搜索领域的核心技术之一。本文对全文检索的有关技术进行了深入的研究。在页面排序算法方面,本文提出了一种改进的PageRank页面排序算法,同传统PageRank算法相比,很好的改进了传统算法在主题漂移和权值沉积方面的问题。本文的重点放在了全文检索技术的应用上,对新技术的利用、检索性能的改善、加快检索速度等方面都做了重点研究。PageRank算法是Google提出的一种基于网页链接的页面排序算法。传统的PageRank存在着主题漂移和权重值沉积两个方面的不足。本文在对传统PageRank算法进行了深入研究的基础上,提出了一种二次加权的改进PageRank算法,改进后的算法有效的改善了主题漂移和权值沉积。当前,全文检索的平台并不是很常见,本文介绍了一种全文检索工具包-Lucene,它功能强大,完全用Java写成,便于嵌入到各种应用中。近年来被广泛使用。Lucene同时也是一款完全开放源代码的软件包,对于我们学习搜索引擎的核心技术提供了非常好的机会,对其源代码的研读、二次开发都是一件有意义的事情。在应用方面,本文设计并实现了基于Lucene的服务外包政策文档搜索系统。这个系统是一个B/S模式的Web应用程序,采用主流的MVC模式设计,软件架构采用Struts,开发语言为Java。系统包括文档录入模块,索引建立模块,检索查询模块以及结果处理模块。在结果处理部分,通过二次加权的PageRank算法对Lucene的页面排序算法进行改进,通过大量的实验后得到了很好的效果。
其他文献
自由性与规范性,是市场经济下公民经济行为的二重向度.公民经济行为的自由性是人类文明进步的表现,是市场经济运行模式的客观要求;而公民经济行为的规范性既是国家机器运行的
出于对全人类、对说话者、对自身的义务,康德在其道德理论中近似于苛刻地要求人们坚持诚实义务.但当康德的道德理论应用于现实中,即面对一个凶手"我"是否应该用说谎来保护被
【正】 体育院校专项班教学训练质量的高低与计划的制订有密切的关系。在四年总的教学大纲、计划的规定下,重要的问题是如何更好地落实到每个学期的具体计划中去。本文是针对
<正>浙政办发[2016]84号各市、县(市、区)人民政府,省政府直属各单位:为贯彻落实中央和省委、省政府关于加大传统村落和民居保护力度、传承和弘扬优秀传统文化的精神,经省政
随着“互联网+”的不断发展,经济交易模式逐渐与网络相融合,而电子商务作为一种新兴的经济交易模式正逐渐被消费者所接受。在电子商务发展的初期,它主要受网上支付方式、支付
对航天运载器飞行过程中的力学环境实时、高精度、低资源占用率测量方法进行了研究,特别针对星箭分离过程的复杂力学环境,提出通过预置控制方式,完成冲击、噪声测点的测量资