论文部分内容阅读
随着互联网的发展,各式各样的信息爆炸式的增长,这些信息为我们提供了丰富的信息的同时也给我们带来了烦恼,如何能够快速准确的从海量的信息中提取对我们有价值的信息显得非常重要。文本分类是数据挖掘的基础,能够为我们有效准确的从大量文本信息中挖掘出有价值的信息提供了重要的保障,所以如何快速准确的对大量文本进行分类是数据挖掘中的一个关键的问题。本篇论文首先介绍文本分类以及Hadoop的发展和应用,对Hadoop的两大核心分布式文件系统和分布式计算框架进行深入研究,分析了分布式文件系统的工作机制以及分布式计算框架的工作原理。其次对文本分类的流程及关键技术进行研究,在一些关键技术中比较了中文文本分类与其他语言文本分类的不同,并选择分类效果较好的SVM算法作为研究对象,对SVM的理论知识进行研究分析。然后结合大数据处理平台Hadoop和文本分类,在MapReduce框架下实现了文本预处理、特征选择、权值计算以及SVM算法的并行化。为了研究Hadoop平台下SVM中文文本分类的效果,搭建一个小型的Hadoop集群,并在集群中通过实验对SVM中文文本分类的训练时间和分类准确率进行分析。通过实验数据分析表明,采用传统的单机支持向量机对样本数据进行训练,不仅费时还会占用大量的计算资源,数据量过大时可能会导致出错甚至机器崩溃。而本文设计的基于Hadoop平台而实现的SVM并行化算法能够改善在对大量样本训练时训练时间长的缺陷,并且分类的准确率也有所提高,尤其是对大量文本进行分类时,Hadoop平台下的SVM算法较单机SVM算法具有更大的优势。