论文部分内容阅读
全文检索是现代信息检索技术的一个非常重要的分支,它既是处理非结构化数据的强大工具,也是现代搜索领域的核心技术之一。本文对全文检索的有关技术进行了深入的研究。在页面排序算法方面,本文提出了一种改进的PageRank页面排序算法,同传统PageRank算法相比,很好的改进了传统算法在主题漂移和权值沉积方面的问题。本文的重点放在了全文检索技术的应用上,对新技术的利用、检索性能的改善、加快检索速度等方面都做了重点研究。PageRank算法是Google提出的一种基于网页链接的页面排序算法。传统的PageRank存在着主题漂移和权重值沉积两个方面的不足。本文在对传统PageRank算法进行了深入研究的基础上,提出了一种二次加权的改进PageRank算法,改进后的算法有效的改善了主题漂移和权值沉积。当前,全文检索的平台并不是很常见,本文介绍了一种全文检索工具包-Lucene,它功能强大,完全用Java写成,便于嵌入到各种应用中。近年来被广泛使用。Lucene同时也是一款完全开放源代码的软件包,对于我们学习搜索引擎的核心技术提供了非常好的机会,对其源代码的研读、二次开发都是一件有意义的事情。在应用方面,本文设计并实现了基于Lucene的服务外包政策文档搜索系统。这个系统是一个B/S模式的Web应用程序,采用主流的MVC模式设计,软件架构采用Struts,开发语言为Java。系统包括文档录入模块,索引建立模块,检索查询模块以及结果处理模块。在结果处理部分,通过二次加权的PageRank算法对Lucene的页面排序算法进行改进,通过大量的实验后得到了很好的效果。