面向大数据的聚类技术研究

来源 :长沙理工大学 | 被引量 : 0次 | 上传用户:hechangying1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类技术是一种分组技术,它将物理或抽象对象的集合分组为由同一类对象组成的多个集合,被广泛应用于各个领域,是数据挖掘、模式识别等研究领域的重要研究内容之一,在识别数据的内在结构方面具有极其重要的作用。随着信息产业的发展,数据的属性类型越来越复杂,然而传统的K-means等聚类算法只能处理单一属性数据,K-prototypes聚类算法则能处理混合属性数据,极大地拓展了聚类算法的应用领域,提高了聚类分析的效率。随着大数据时代的到来,传统的聚类方法已无法对大规模的数据进行处理,因此将聚类技术与集群环境相结合,已成为处理海量数据的新趋势,能分析出大量有价值的信息。本文主要的工作内容概括如下:(1)提出一种有效的GK-prototypes聚类算法。在经典的K-prototypes聚类算法的基础上,利用去模糊相似矩阵构造粗粒子集、粒计算和最大最小距离法确定初始聚类中心,并修改了目标函数。实验结果和理论分析表明,GK-prototypes聚类算法与其它基于K-prototypes的改进算法比较,聚类效果更准确,有效性更好,鲁棒性更强。(2)提出了一种面向大数据的MK-prototypcs聚类算法。大数据数据的特征之一便是数据的属性属于混合类型,即包括数值属性和分类属性。在此基础上,本文提出了一种利用MapReduce模型并行化K-prototypes聚类算法来处理大规模混合数据。实验结果和理论分析表明,在保持聚类准确率的前提下,随着数据集大小的不断增加,该并行化聚类算法都具有良好的可扩展性,达到了接近线性的Speedup效果。
其他文献
酵母(Saccharomyces cerevisiae)线粒体基因组维持基因mgm7.1(mitochondria genome maintanance)是由Bryan Jones分离并被认为是单基因。用spo 11基因定位法的数据表明,它可
实验中观察到,用MUG培养基对植物药中的大肠杆菌定量时多发生荧光猝灭现象,影响检测结果。本文对此现象产生的原因与克服方法进行了系统的考察,发现以一种简便的转接方法可排除植物
五种缓冲剂对根瘤菌生长的酵母汁—阿拉伯糖—半乳糖培养基(YAG)低pH的缓冲作用进行了测定。30.7mM2[N-吗啉]乙醇磺酸(MES)具有维持pH(5.5或4.9)基本不变的缓冲能力,且根瘤菌
对革兰氏阳性的地衣芽孢杆菌(Bacillus licheniformis)H19和革兰氏阴性的2-酮基-L-古龙酸产生菌S18的原生质体的制备条件进行了研究,并采用聚乙二醇作诱导剂进行了两菌株的原生质体融合,用链霉素作为抗性标记对融
小型巡飞弹作为微小型无人机和制导弹药组合,将以其智能化、灵巧化、低成本等特点成为未来信息化战争的一类重要武器。文章简要介绍了国内外多款典型巡飞弹的研制背景、作战功
当代写作正发生着某种深刻的变异."个人式写作"作为先锋文学的叙事法则,通过语词游戏和叙事革命,走向80年代的"宏大叙事",然而最终耗尽了解构的冲动与热情,失去"所指"--政治
图像匹配作为图像处理中的基本任务,用于匹配在不同时间、从不同成像设备或从不同角度拍摄的两幅或多幅图像。图像匹配在不同应用领域有不同的专业名称,比如,图像配准、图像对齐、光流估计等,其目标都是估计图像与图像之间的空间对应关系。图像匹配已在光流估计、医学影像诊断等图像处理及工程技术方面得到了广泛应用。然而图像匹配中仍然有许多问题有待科研学者去进一步完善。例如,在成像设备多样化的时代,如何高效、精确的实
1 小镇的冬天总是灰扑扑的,大朵大朵铅灰色的云停在头顶的天空,让人觉得没劲.早晨六点半的街道,东边透着一点淡淡的蟹青色,街道上大部分店铺关着门,唯有几家早餐店摆了蒸笼,
期刊
教学楼作为高校建筑的主要建筑类型是人员密度较高的建筑,其供暖和新风负荷的高低峰值差别巨大。在改善其供暖季室内空气环境的设计中,研究不同使用状况、不同时间阶段下建筑负荷变化趋势,分析其变化原因,以达到优化能耗,实现挖掘节能潜力的目的。单一地源热泵系统在冬季热负荷远大于夏季冷负荷的地区运行一段时间后存在严重冷堆积现象,采用辅助热源承担部分冬季热负荷能有效解决这一问题。本文针对教学楼的建筑使用特点,采用
UV-B辐射增强对水稻的生长发育及生理都有不同程度地影响,主要表现在外部形态的变化、光合系统被破坏、抗氧化系统不稳定、内源激素含量的改变、病害加剧、生育期滞后及生物