论文部分内容阅读
全文检索是现代信息检索技术的一个非常重要的部分。它是一种快速有效的信息检索技术,也是处理非结构化数据的强大工具,同时也是搜索引擎的核心技术之一。它的使用极大地提高了从大量纷繁复杂的数据中查找特定信息的效率。
该课题源自于网络协同研究服务环境项目。网络协同服务环境为广大科研工作者提供一个会议、研讨与展示的平台。在该平台的使用中,随之而产生的有大量的不同学者所研讨编辑后生成的文档,这其中又以WORD文档为主,在这些海量的文档中如何快速有效的查找到自己所需要的信息就成为一个现实的问题。
本课题的主要研究任务旨在设计一个针对WORD文档格式的多文档的全文检索工具,实现对指定目录下的目录或文件的遍历和检索,完成多个文档的全文检索功能模块的设计与开发。为用户提供一个快捷、可靠的信息检索渠道。
CLucene是Apache Jakarta的一个子项目Lucene在C语言上的重新实现,它是一个全文检索的搜索引擎库。本文对中文全文检索的有关技术进行了较为深入的研究。在基于字表的全文索引方面,CLucene采用了一种倒排索引结构,实现了分块索引,能够针对新的文件建立小文件索引,然后通过与原有索引的合并,达到优化的目的。同传统索引结构相比,更便于索引的构建、维护、更新,还能有效地提高创建索引的速度。
目前由于CLucene只能对纯文本的数据进行索引,但由于在网络协同环境下,会议产生的文档大多是WORD文档,而并非纯文本格式。因此,本文使用VBA以及OFFICE自动化的相关技术,实现了一种对WORD文档的文本抽取工具,将WORD文档转化为TXT格式的文本文档。从而可以由CLucene的索引机制来实现对文档的索引操作。同时,本文通过系统的研究Clucene的组成结构,实现CLucene对中文文字的支持,并采用了传统的二分法实现了中文分词,扩展了CLucene的功能。
本系统实现了从最初的原WORD文档的文本抽取处理,到最终的全文检索、浏览显示等一系列完整功能。系统整体组织结构简单、各模块相对独立,且完全无需后台数据库支持,对环境依赖低。系统采用的CLucene是开源的免费搜索模块,易于获得和进行二次开发。因此,本系统的设计实现,对WORD文档的全文检索实现提供了一种切实可行的解决方案。