论文部分内容阅读
全文索引和检索是快速有效的信息检索技术,它极大地提高了从大量纷繁复杂的数据中查找特定信息的效率。Lucene是Apache Jakarta的一个子项目,是一个全文检索的搜索引擎库。而搜索引擎是网络上快速而有效地获取信息资源的捷径,网络蜘蛛技术则是搜索引擎的关键。本文围绕全文检索及网络蜘蛛这两个前沿性研究领域课题,结合智能搜索引擎框架的总体要求,实现了网络蜘蛛在互联网中的漫游,并将网页数据存储在本地数据库中,然后利用Lucene对网页内容进行全文索引,构造符合现代企业和校内使用的全文检索系统。目前由于Lucene只能对纯文本的数据进行索引,但由于网络发展一日千里,纯文本的使用几乎变得凤毛麟角,各种常用文档,多媒体文档已日益成为网络中信息交换的主体。因此,本文使用多线程网络蜘蛛,结合设计基于Lucene的全文检索系统采用接口方式,统一处理html、pdf、word、ppt和Excel等多种常用文档,使索引此类文档成为可能,其突出的优点与特点是在最大限度地为用户屏蔽各种格式文档差异性的同时,极大地扩展了Lucene可以处理的格式文档的类型。研究内容主要包含:首先分析搜索引擎的工作原理,其次详细阐述和分析了JAVA多线程技术,利用开源控件Quartz实现定时更新技术,特别是本文实现中所用到的Socket连接、JDBC连接、JAVA数据流(IO)及Lucene全文检索等技术。然后,通过在校园网上进行实验,并且读取存储在数据库中的网页数据,验证了该网络蜘蛛的可行性,证明系统己达到了预期的目标。最后,本文介绍了基于LUNCENE全文检索引擎,实现了符合现代企业和校内使用的搜索引擎。系统采用JAVA语言来开发,使用ECLIPSE作为开发环境,数据库使用SQLSERVER2000,系统的设计采用到JAVA语言的多方面,例如多线程。