论文部分内容阅读
基于当前最流行的全文检索引擎架构Lucene,文章设计并实现了一个中文分词模块.分词模块中的核心算法是基于字符串匹配与统计相结合的中文分词算法,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.通过实验发现,该模块的分词准确率较高,分词速度有进一步的提升空间.下一步我们将通过多种改进措施,来完善该分词模块,最终构建出一个高效的中文全文检索系统.