论文部分内容阅读
随着信息技术的飞速发展,数据的产生和存储达到了空前繁荣的阶段,与此同时,如何从海量的数据中提取潜在的有用信息,给传统的数据挖掘技术带来了严峻的考验,基于云计算的数据挖掘的方法也应运而生。Hadoop是云计算技术的一个开源平台,其核心技术主要是Hadoop分布式文件系统(HDFS)和MapReduce编程模型,其中,HDFS存储文件,MapReduce编程模型实现并行计算。由于利用Hadoop框架可以方便、快速地实现计算机集群,能够处理大型数据集,因此,将传统的数据挖掘方法部署到Hadoop平台具有实际的研究意义,实现这一技术的关键就是要对传统数据挖掘技术的并行化。目前为止,基于Hadoop的数据挖掘技术在某些方面已经取得了一定的研究成果,但是该领域的研究还有待进一步推广。本文以云计算技术及数据挖掘技术为理论基础,研究了文本预处理算法并对其进行改进,支持向量机算法并对其改进以及并行支持向量机算法的实现。论文主要研究内容及成果如下:1、Hadoop分布式平台及Web挖掘理论。本文对Hadoop两大核心技术即HDFS和MapReduce编程框架进行了深入的研究,并详细介绍了Web挖掘的相关理论及挖掘算法。2、Web文本预处理。本文从文本预处理的流程出发,研究了预处理过程的具体步骤及其相关算法。由于在传统的特征项表示模型中,没有充分考虑权值较小特征项的影响,因此,本文提出了改进的特征项表示模型。在该模型中,首先求得所有特征向量的平均值,再对其进行标准化,使得所有的特征项在同一起点上对文本分类起作用。最后通过实验验证了改进特征项表示模型的优越性。3、改进的支持向量机算法及其并行实现。在该部分,首先详细研究了支持向量机算法,并针对现有算法存在的问题,提出了改进的支持向量机算法,即通过改变核函数,从而提高算法的学习泛化能力,使得分类器分类效果更好,同时,考虑到分类器的分类时间问题,本文利用相应的并行策略实现支持向量机的并行算法,并将其部署到Hadoop分布式平台,最后通过实验验证了改进支持向量机算法的优越性和并行支持向量机算法的有效性。4、搭建了Hadoop集群环境,使用java语言实现了支持向量机分类器的构建,并通过分类器评价指标对分类器进行评价。