论文部分内容阅读
随着互联网技术的高速发展,微博、微信、社交网络等交互式应用的涌现、基于云应用的兴起、多种形式数码设备的使用,数据正呈爆炸性增长。面对如此庞大的数据,传统的数据分析工具仅仅从简单的统计、查询和管理数据等方面进行处理,不能深层次地挖掘潜在的有用的信息。因此,如何利用大数据挖掘出有价值的信息就显得尤为重要。聚类分析是大数据分析技术之一,传统的单机聚类算法在运行效率和计算的复杂度都无法满足大数据信息处理的要求,云计算技术的发展为大数据的聚类分析提供了新的研究方向。本文结合MapReduce并行计算模型,通过对传统的FCM聚类算法进行研究,能够快速、高效的实现大数据的聚类分析。本文的工作如下:(1)大数据集成方法研究:大数据的一个重要特点是多样性,这意味着数据类型的多样性、数据来源的广泛性。要进行大数据的分析,首先需要将不同数据源中的数据进行集成,本文针对大数据多样性的特点进行了研究。通过剖析传统基于Web Service和XML技术的数据集成系统,结合云平台的优势,研究云环境下解析XML数据的方法,提出了基于Hadoop的数据集成方案,将不同数据源中的数据集成到HBase数据库中,以便对这些数据进行高效、快速的分析。(2)模糊C均值(FCM)算法研究:聚类分析是大数据分析技术之一,本文对聚类分析中的模糊C均值算法进行了研究,设计了其MapReduce化方案。(3)基于Canopy的FCM算法(Canopy-FCM)研究:考虑到大数据集数据量大的特点,本文对Canopy算法进行了研究,Canopy是一种粗糙的聚类算法,其能够通过很少的迭代次数获取比较粗糙的聚类中心,该算法具有快速的特点,因此将Canopy算法获取的聚类中心结果作为FCM聚类算法的输入能够加快FCM聚类算法收敛速度,本文对基于Canopy的FCM算法进行了研究,设计了其MapReduce化方案。(4)基于Hash取样的最大最小距离的FCM算法(HMMFCM)研究:Canopy-FCM算法是一种快速但不精确的聚类算法,传统聚类算法中经常使用最大最小距离算法获取初始聚类中心,以得到较好的聚类效果,由于最大最小距离算法不能被并行化,因此本文结合Hash取样方法对最大最小距离算法进行了研究,设计了Hash取样方法的MapReduce方案,使用Hash取样数据进行最大最小距离算法计算出初始聚类中心,最后将该初始聚类中心作为FCM算法的输入,以使FCM算法获取较好的聚类效果。