论文部分内容阅读
数据挖掘是数据库研究、开发和应用最活跃的分支之一,是计算机科学领域最有发展前景的一门技术,在从海量数据中挖掘可用知识的需求的推动下诞生。数据挖掘是从大型数据集中,提取隐藏的、潜在有用的模式与规则的过程,它涵盖了概率统计、机器学习、神经网络、模式识别、信息检索、人工智能和可视化等多门学科的知识,汇集了多样化的数据分析技术。聚类分析是数据挖掘中一个重要研究领域。聚类分析是一种无监督的学习过程,它可以按一定的规则,在没有先验知识的条件下将数据分成多个类,从而发现隐藏的模式。划分的方法、层次的方法、基于密度的方法、基于网格的方法等是聚类分析算法大体上的分类。聚类分析在文档分类、电子商务、市场分析、生物学等领域中都有广泛的应用。本文对数据挖掘中的聚类技术进行了分析和讨论,对于聚类分析的一种现实应用,即社交网络的社团挖掘,提出了一种并行化的聚类实现方法,该方法将社交网络用户按权重进行分类分别处理,从而避免了并行canopy算法reduce阶段输入数据量过大的问题,同时具有更快的收敛速度,适合于大规模用户聚类的应用。文中首先简单阐述了数据挖掘的概念和常用技术,之后对聚类分析的概念、相关度量做了说明,并从聚类算法的分类出发,分析了各种聚类算法及关键技术;然后详细分析了一种常用的经典算法——k-means算法的缺陷和一些改进思路,对使用canopy算法得到k-means算法的聚类个数和初始聚类中心的方法,即canopy k-means算法进行了详细的讨论,通过仿真实验验证了其性能;之后对Hadoop分布式平台做了简单说明,提出了canopy算法与k-means算法的并行化策略;最后提出了一种社交网络用户聚类的并行实现方法,并且进行了实验测试。实验证明该算法相比于使用传统k-means算法以及canopy k-means算法的用户聚类方法,在效率上有很大的提高。