论文部分内容阅读
Web搜索技术的发展,加快了用户在海量信息的互联网上查找需要的信息的速度,极大地推动了网络资源的共享。与此同时,同等重要的本地文档资源被忽视了而且由于本地文档资源的特殊性,不可能与Web共享。用户在本地文件系统中查相关性质的文件内容时,需要不断地翻阅目录去阅读这些文件,严重地降低了文档查找效率,本地文档资源没有有效的利用。本文研究并实现基于全文检索的桌面文档搜索引擎,在Lucene开源搜索框架基础上,重新封装核心功能,实现对多种格式的本地文档搜索功能,使用户在系统中全局地掌握桌面文档资源;构建基于SWT图形界面库可移植的交互界面,让用户方便地与系统交互;运用中文分词理论实现支持中/英文的MandarinAnaylzer、基于词典的分析、分词模块,最大可以支持5个汉字词的模式匹配,解决了Lucene对中文支持不好的问题;针对不同格式的文档,构建多种类型解析器(Parser)抽取文档文本用于建立索引,支持多种流行的文档格式。本系统有效地解决了桌面应用中对于文档查询的问题,实现基于内容查找、提高查找效率与速度,更有效地利用桌面文档资源。