论文部分内容阅读
文本是存储和交换信息的最自然的方式,但是,随着信息时代的高速发展,文本的数量呈指数级增长,因此,如何迅速的从海量文本中获取信息就成为了一个具有挑战性的问题。 文本分类技术是一种重要的文本分析技术,但是,文本通常处于高维度空间,对大规模文本进行分类需要耗费大量的计算资源和计算时间。云计算是分布式计算技术的一种,云计算能够将大规模的数据和计算分布到大量PC集群中进行并行处理,从而极大地缩短处理时间,MapReduce是由Google提出的基于云计算平台的用于处理大规模数据的框架模型,因此,基于MapReduce计算模型进行大规模文本分类,具有非常重要的研究意义和应用前景。 本文主要研究基于MapReduce计算模型的大规模文本分类方法,具体工作有以下几点: 1、本文研究了目前主要的文本分类方法及对这些方法的一些并行化实现,提出了基于MapReduce计算模型的大规模文本分类方法,该方法能够完成文本从预处理到分类的整个过程。 2、文本分类预处理包括一系列步骤,本文对这系列过程进行调研后,分析了其中的特征提取和权重计算两个步骤的各种方法和其详细工作流程,设计并实现了基于MapReduce计算模型的卡方检验特征提取法和TF-IDF权重计算法。 3、文本分类有很多算法,本文进行调研之后选择了K近邻算法和SVM算法作为研究对象,本文详细描述了这两种算法流程,设计并实现了基于MapReduce计算模型的K近邻分类算法和基于置信区间的SVM分类算法。 4、针对本文涉及的基于MapReduce计算模型的并行分类方法,本文最后进行了实验验证,比较了程序在MapReduce集群上并行化运行和在单机上串行化运行时的性能以及并行方法在不同节点的集群上运行时的加速比,最后本文对实验结果进行了分析和总结。