论文部分内容阅读
在当代,随着科技的发展,移动智能设备的普及,万物联网的方便,信息量的几何级增长,大数据浪潮已然来临。众多海量数据中,文本数据占据了很大一部分。面对日益增长的文本数据,如何存储、挖掘这些数据就变得非常重要。文本分类是很常用的数据处理手段,传统的基于人工的文本分类方法,早已被知识工程和基于机器学习和统计学方法所取代。尤其是在近几十年,基于机器学习和统计的方法应用越来越广泛。目前,已有的基于机器学习和统计学习的文本分类方法已经很难处理越来越多的文本数据,无论是分类器的训练时间过长还是内存的限制问题都需要解决。针对大量文本数据,选用云平台,做分布式文本处理变得很有必要。随着Hadoop分布式开源社区的兴起,很多传统的单机数据存储和处理被转移到Hadoop平台上。本文就是利用Hadoop平台的特性,基于Map Reduce框架,实现大量文本的文本分类。主要包括文本预处理的并行化设计、特征降维的并行化设计、特征权重量化的并行设计以及文本分类器的并行化设计。在逻辑回归、决策树、支持向量机、神经网络、KNN等众多分类算法中,本文选用基于VC维和结构风险最小化的支持向量机作为文本的分类器。SVM虽然具有解决维度灾难、很少过拟合以及分类效果好等优点,但是由于求解最优分类超平面的复杂度很高,在面对大量样本数据时,SVM分类器存在训练时间过长的问题。本文在深入研究了解支持向量机的基础上,探讨了目前已有的一些基于Hadoop机制的并行支持向量机算法,包括层叠式PSVM、分组式PSVM、反馈式PSVM的优缺点,提出了n2反馈式PSVM算法。通过实验验证了新式PSVM降低了训练时间,提高了分类的准确率。同时,对SVM中的核函数进行了深入的研究,在PSVM中引入混合核函数思想。在研究各种已有的核函数后,提出了新的混合核函数。并通过实验验证了新的混合核函数在分类方面的有效性。