论文部分内容阅读
Lucene.net实现中文分词依靠的是Analyzer类,但通过分析其内置的KeywordAnalyzer,StandardAnalyzer,StopAnalyzer,SimpleAnalyzer,WhitespaceAnalyzer5个分词类发现,它们几乎都是按单字的标准进行切分的,为更好处理中文信息,必须引用外部独立开发的中文分词包.在对ChineseAnalyzer,CJKAnalyzer和IKAnalyzer这3种典型的中文分词包分别测试后,发现采用字典分词以及正反双向搜索方法的IKAnalyz