论文部分内容阅读
Nutch是开源搜索引擎,Hadoop是Apache开发的类似于GoogleGFS和MapReduce的开源云平台.利用Nutch和Ha—doop可以设计高效、可靠、可扩展的搜索引擎,然而Nutch的分词模块对中文进行单字切分,不符合在汉语中以词语切分的习惯,为了解决这个问题,采用词典分词的中文分词器IKAnalyzer对Nutch的分词模块进行改进,首先描述在Nutch上实现IKAnalyzer的方法,然后在Hadoop云环境下对该分词模块进行测试.测试结果表明,IKAnalyzer的中文分词效果很符合