论文部分内容阅读
随着科技的日新月异,信息技术在不断发展,可以说这个时代就是一个信息爆炸的时代.针对海量的信息处理,文本分类技术应运而生,这种技术可以对大量的文本数据进行有效的组织.其中,SKNN文本分类算法是经典KNN分类算法中的一个重要组成部分,这一方法大大提高了KNN分类算法的利用率.本文以Hadoop为基点,从Hadoop平台和文本分类概述、基于MapReduce的文本预处理方法以及基于MapReduce的SKNN分类算法三个方面进行详细论述.