论文部分内容阅读
本文在开源(OpenSource)项目JakartaLucene的基础上,结合多种开源文档格式分析工具,设计和实现了一种可扩展的全文检索框架,该框架可高效地对XML、HTML、NLSWord、PDF等格式的文档进行全文检索。整个框架完全基于开源工具包,可以有效地对信息系统的开发进行支持。