基于大数据Spark平台的k-means算法优化设计与实现

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:xiaoniaohk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在技术发展和社会生产不断发展的背景下,大数据来源于国防、政府、商业、工业等领域,其中蕴藏巨大经济和社会价值,如何将这些价值挖掘出来并加以利用,以促进经济发展和社会进步,具有重要的意义。聚类算法是这类挖掘技术的经典算法之一,为了提高聚类算法应对大数据集的处理能力,可以利用现在已有的大数据处理平台,成倍提高数据处理效率,Spark就是其中最为高效的一种平台。本文通过k-means算法初始聚类中心的选择进行改进,使数据集的分布特征可以被很好地刻画出来,同时利用Spark集群实现了并行化且具有Spark内存计算带来的高效迭代特性。利用UPGMA算法(非加权组平均法)将相距较近的数据点不断进行合并为新的簇,当簇中的数据数量达到设定的阈值将其加入到队列中并聚类的数据中删除,将此步骤得到的簇应用于最大最小距离算法得到可以反映整体数据分布特征的中心点,提高了聚类的稳定性和准确性。同时,为了充分利用Spark的优势,可以从内存优化、数据压缩、集群设置等方面进行优化,提高改进算法在Spark平台上的应用能力。通过对召回率、准确率、F-measure等指标的对比可以得出本文提出的改进k-means算法在聚类效果上优于传统k-means,同时从算法在Spark平台的加速比和扩展比可知改进算法在此指标上收敛更快即并行化效果更好。
其他文献
单光子探测技术在国防军事、科学研究及民用生活等范畴具有广泛的应用前景,例如量子通信中的密钥分配、天文学中的激光测距以及医学中的荧光寿命成像等。短波红外InGaAs雪崩
随着现代电气工程的快速发展,用电装置对供电系统的要求也愈来愈高,传统供电方式难以满足用电装置在水下、地下、雨雪及存在运动等特殊工况下的用电需求,动态非接触供电技术
寄主植物-植食性昆虫的协同进化过程中,植食性昆虫生存的关键是找到合适的寄主植物来完成生活史,以柳树-柳蓝叶甲的互作系统为例,在该系统中,柳蓝叶甲是一种可以寄生于绝大部
目标检测是当前计算机视觉领域的一个研究热点,主要任务是找出图像或视频中所有感兴趣目标的位置,并给出每个目标的具体类别。近年来,目标检测在很多计算机视觉领域中已经有了很多成熟的应用,如车辆自动驾驶、图像检索、视频监控和信息采集等。基于传统图像处理和机器学习的目标检测算法通常使用手工设计的特征,并且利用小样本进行训练,这种做法常常会受到光照、遮挡和环境变化等因素的影响,最终导致目标检测的效果不佳。与传
随着我国社会经济的发展、城镇化水平提升,城市公共空间的建设日渐成为评价区域形象和区域竞争力的重要指标,得到越来越多的重视。党的十八大以来,文化自信更是被提升到国家
柱作为重要的受力构件,在结构中起到至关重要的作用。将高强混凝土置于约束状态之下能够改善混凝土柱的延性。随着建筑工业化的发展,装配式结构得到了普及和推广。迄今为止,
电动汽车在节能和环保方面的优势突出。但是,作为电动汽车动力源的蓄电池相对而言存在功率密度较低和循环寿命短的缺点,而且车辆行驶工况复杂多变,单一蓄电池的电源系统不能
测序技术发展日新月异,第二代高通量测序已成为主流技术广泛应用于各个领域,与此同时基于单分子读取的第三代测序技术也逐渐发展起来。越来越多的测序项目得以开展,随之产生
在沿海地区或长期处于酸性环境的建筑物容易受到自然腐蚀引起构件锈蚀破坏而导致结构抗力减弱,这是由于氯离子大量存在,保护层碳化后,钢筋在酸性条件下锈蚀严重,导致构件承载
随着生活水平的不断提高,人们对于生活中费品的要求也越来越高。汽车作为现代生活中必不可少的生活用品,走进了千家万户。作为汽车产品,用户对其要求也在不断提高,内饰作为与