论文部分内容阅读
分析了企业级搜索引擎应具有的功能和总体架构,研究了Lucene的系统结构及检索原理,提出了统一处理html、pdf、word等多种常用文档的思路。针对中文特点设计搜索引擎的构建技术,包括从源数据采集、文档解析与分词、索引器、信息检索、结果排序的全过程,基于Lucene软件包实现了一个原型系统,取得了较好的搜索效果。