基于Spark的模糊c均值聚类算法研究

被引量 : 0次 | 上传用户:yaoyao0313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在人们可以通过一系列先进的方法收集到大规模的数据,过去这些数据缺乏有效的技术手段去挖掘其中的潜在信息价值。但是今天人们却能通过对这些数据的分析,学习到人类社会的行为特征,从而取得更多的经济效益。聚类是数据挖掘的重要组成部分,模糊聚类则是数据分析的重要方法。本文旨在将模糊c均值聚类算法应用到大规模数据分析中,面向可扩展化、并行化对算法进行改善,部署到现代的分布式处理架构上,充分发挥集群处理优势,并结合新方法有效改善经典算法应用到分布式场景下的不足。本文将从以下几个方面进行论文工作的阐述:1)根据众多聚类方法的性质特点进行类型划分及综述对比,选择更精确的模糊聚类以及特点适合在大数据场景下部署应用的基于划分的聚类方法,即模糊c均值聚类算法。2)在深入研究Hadoop和Spark的分布式模型基础上,对比两者在迭代任务上的处理性能,选择更适合迭代聚类算法的分布式架构Spark。3)基于Spark的编程模型进行模糊c均值的并行扩展化设计,但是初始化时模糊c均值采取随机选择聚类中心的策略,给算法主体迭代和结果精度带来很大的不确定性,这在大数据场景下代价是非常大的。为增强模糊c均值并行扩展后的性能,借鉴k-means在初始化阶段的改进策略,将k-means∥推广到模糊c均值中以获得更优的聚类性能,结合Spark的编程模型得到本文可扩展的并行模糊c均值算法。4)基于工作3)的算法,模糊c均值适于致密的球状数据结构,对于非凸结构的数据聚类效果较差。但在大数据场景下,数据形状结构非常复杂,支持单一结构的经典模糊c均值无法适应大数据场景下复杂的数据结构。为适应大数据场景下不同形状数据的聚类需求,引入核函数使模糊c均值在线性和非线性的数据上都能获得好的聚类效果,并结合Spark编程模型得到本文可扩展的并行核化模糊c均值算法。本文提出的两种算法在真实和人工数据集上的若干实验都表现出了很好的扩展性和并行性,有效地将模糊c均值聚类扩展到分布式应用中,极大地增加了算法处理的数据规模,有效地提高了算法的鲁棒性以及算法对数据形状结构的适应度,使并行可扩展的聚类算法得以更有效地对大数据进行聚类分析。
其他文献
武侠影片是世界电影中的一朵奇葩,有着丰富而独特的文化内涵。然而对于此类电影文化的研究多是侧重于人文的角度,鲜有专项的研究。本文从音乐发展的角度出发,以不同时期中国
目的研究血府逐瘀汤对动脉粥样硬化(atherosclerosis,AS)大鼠动脉斑块基质金属蛋白酶9(MMP-9)及组织抑制物1(TIMP-1)的影响。方法将30只SD大鼠随机分为对照组、模型组、血府
在校大学生入伍是新形势下提高兵员质量的重要措施,也是质量建军,科技强军的需要。本文探讨了在校大学生入伍后,学籍管理中存在的问题,分析了产生问题的原因,并提出了解决问
期刊
目的:探讨ICU综合护理干预模式对呼吸机相关性肺炎的效果。方法:以2011年1月至2013年1月间ICU病房收治的86例呼吸机相关性肺炎高风险患者为研究对象,按时间分为观察组(2012年
焦虑情绪在听力测试过程中对听力理解既会产生正面影响,也会产生负面影响,而负面影响占主要地位。教师应该采用适当的教学方法,通过平时的听力训练来调节学生听力测试过程中
20世纪末赣南农村涌现的弃婴潮和收养高峰在一定程度上消解了国家计划生育政策的实施绩效。弃婴与收养的潮起潮落,不仅折射出村落生育文化的转变,更裹挟着国家与农民关系的转
<正>大学学的专业是计算机技术,2011年毕业于师大计算机学院的杨品之不去人才市场找工作却当起了房产中介老板。如今他不仅成立了自己的房产经纪公司,还开了5家分店,手下的30
期刊
20世纪50年代,美国开启了主持人明星化的先河。美国各大传媒集团获得了巨大的商业利益并实现了收视率的大幅上升,从而使得各国传媒人员争相借鉴。把主持人塑造成明星会有很多
<正>王不留行也称王不留、麦蓝菜,在《神农本草经》中有记载,归属于上品。按照现代植物理论,其属于双子叶植物石竹科植物麦蓝菜的干燥成熟种子。据古医学文献记载,王不留行性