数据挖掘中的聚类算法研究

被引量 : 12次 | 上传用户:wuyishijian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是数据库研究、开发和应用最活跃的分支之一,是计算机科学领域最有发展前景的一门技术,在从海量数据中挖掘可用知识的需求的推动下诞生。数据挖掘是从大型数据集中,提取隐藏的、潜在有用的模式与规则的过程,它涵盖了概率统计、机器学习、神经网络、模式识别、信息检索、人工智能和可视化等多门学科的知识,汇集了多样化的数据分析技术。聚类分析是数据挖掘中一个重要研究领域。聚类分析是一种无监督的学习过程,它可以按一定的规则,在没有先验知识的条件下将数据分成多个类,从而发现隐藏的模式。划分的方法、层次的方法、基于密度的方法、基于网格的方法等是聚类分析算法大体上的分类。聚类分析在文档分类、电子商务、市场分析、生物学等领域中都有广泛的应用。本文对数据挖掘中的聚类技术进行了分析和讨论,对于聚类分析的一种现实应用,即社交网络的社团挖掘,提出了一种并行化的聚类实现方法,该方法将社交网络用户按权重进行分类分别处理,从而避免了并行canopy算法reduce阶段输入数据量过大的问题,同时具有更快的收敛速度,适合于大规模用户聚类的应用。文中首先简单阐述了数据挖掘的概念和常用技术,之后对聚类分析的概念、相关度量做了说明,并从聚类算法的分类出发,分析了各种聚类算法及关键技术;然后详细分析了一种常用的经典算法——k-means算法的缺陷和一些改进思路,对使用canopy算法得到k-means算法的聚类个数和初始聚类中心的方法,即canopy k-means算法进行了详细的讨论,通过仿真实验验证了其性能;之后对Hadoop分布式平台做了简单说明,提出了canopy算法与k-means算法的并行化策略;最后提出了一种社交网络用户聚类的并行实现方法,并且进行了实验测试。实验证明该算法相比于使用传统k-means算法以及canopy k-means算法的用户聚类方法,在效率上有很大的提高。
其他文献
卫星通信作为地面通信的补充和延伸,因其具有覆盖范围广泛、不受地理环境限制、对抗自然灾害能力优异等优势,具有不可替代的地位。然而,卫星通信由于信道条件开放,会受到各种
机械采油方式的优选关系到油田生产的综合效益,为了选择出综合效益最佳的机械采油方式。以前期机械采油方式适应性评价优选出的适应性强的初选机械采油方式为对象,首先构建了
以南阳石蜡精细化工厂生产的56#、58#石油蜡为主要原料,通过加入添加剂的方法试制出新一代低温模料-LPM系列精密铸造蜡.工业试验证明,该铸造蜡与原有低温模料相比具有光泽度好、硬度高、强
"治理"概念的出现,意味着政府部门提供公共服务供给思维的转变,公共服务逐渐占据社会治理的核心并成为"元叙事"话语。公共服务供给机制的建构受到了社会治理历史类型的制约,
大学生普遍处于性生理活跃期,很多学生会选择恋爱或有恋爱意愿,但大多数学生的性知识及性态度不容乐观。无保护的性行为和多性伴显著增加了怀孕与性病(含艾滋病)的感染机会。
人们常说:"习惯成自然。"小班幼儿是幼儿跨入集体生活的一个转折点,也是进行常规教育的关键期。进餐习惯对小班幼儿来说是一个至关重要的常规,对幼儿的健康成长具有一定的意
受通信时间、存储能力等因素的限制,量子通信中通信双方传输的脉冲数只能是有限个,因此分析量子密钥分发协议的有限密钥安全性成为实现量子通信的重要前提。在实际的量子通信
在以IP业务为代表的分组业务量井喷式增长和新型业务不断涌现所导致的巨大带宽需求的刺激下,光网络技术迅速发展并不断演变。同时,光网络技术的迅速发展又推动了宽带流媒体应
对于矿山企业特别是资源矿山企业而言,选矿设备占了矿山机械的较大比重,具有资产价值高、设备种类复杂、使用寿命较长、工作环境恶劣等特点。而选矿设备在矿山生产中基本上为
在移动通信领域,随着宽带无线接入技术和移动终端技术的飞速发展,人们迫切希望能够随时随地乃至在移动过程中都能方便地从互联网获取信息和服务,于是移动互联网应运而生并迅