k-means聚类算法优化及其在Spark Streaming上的实现

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:DKarson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随计算机的发展和普及,每天产生海量的数据,如何从繁杂的数据中及时快速地挖掘出有价值的信息,具有深刻的意义,这就需要数据挖掘相关理论和技术的支持。本文从数据挖掘的发展背景、趋势、相关处理平台等方向作了介绍,突出探讨了k-means算法的研究现状和最新的改进方法,并以Spark Streaming为基础实现了分布式的流式k-means算法。针对k-means算法存在的不足,设计改进了一种基于马尔科夫链蒙特卡罗方法与环形区域搜索的k-means聚类算法(Assumption Free Markov Chain Monte Carlo Annular Search k-means,AMC2A k-means)。本文所做的工作主要由如下部分组成:(1)针对k-means算法对初始聚类中心敏感问题,利用马尔科夫链蒙特卡罗方法采样初始聚类中心,提出新的平稳分布模仿D~2-Sampling,提议分布加速采样过程。马尔科夫链在一定的次数的状态转移后达到平稳分布,利用这一收敛特性,从平稳分布中采样数据充当聚类中心,具体操作为:将数据集看作状态集,选出两个相距较远的样本作为已有中心点,计算其余数据距离此中心点的最短距离,构成提议分布;计算数据与已有中心点的最近距离作为平稳分布,构建马尔科夫链,从而实现中心点采样且彼此间分布较为分散。这一过程将使得初始中心可以良好的刻画数据的空间分布,防止在同一类别中重复采样,在很大程度上避免算法陷入局部最优解,并可以显著减少k-means算法的迭代次数。(2)针对k-means算法在查找最近中心时计算量大的问题,提出基于三角不等式的环形区域搜索。k-means算法在查找所属类别时,会计算数据与所有中心点的距离,这将消耗大量的资源,为此通过数据点的模和三角形判定定理得到最近中心点的模所在区间,建立一个环形的过滤带,只有位于环形带内才有成为最近中心的可能,在每次迭代过程中仅需对符合条件的部分类别进行搜索,达到查找过滤的作用,减少了大量不必要的计算。这一优势在处理大数据集和多类别聚类时显得尤为突出,具有更低的时间复杂度。(3)通过基于Spark Streaming平台的仿真对比实验,改进的AMC2A k-means相对于k-means算法、k-means++算法,在聚类性能、处理时间等指标上具有更好的表现,尤其随着数据集规模的增大,显示出优秀的处理能力,在海量数据和多类别的流式聚类中,处理速度更快,系统吞吐量更高。
其他文献
学位
党的十八以来,以习近平为核心的党中央全面推进青年思想政治教育工作,形成了完整的青年思想政治教育观。这一理论具有鲜明的逻辑理路:对中华优秀传统文化的汲取与转化、对马克思主义青年思想政治教育思想的继承与发展、对青年思想政治教育工作实践的反思与总结是其生成逻辑;以战略地位论、价值目标论、根本原则论、内容体系论为整体布局,构建出严密的结构逻辑;推动马克思主义青年思想政治教育理论的新发展、构建青年思想政治教
肿瘤标志物对于肿瘤的早期检测、筛选,以及肿瘤治疗过程中疗效的监测等起着重要作用,肿瘤标志物检测方法的研究也是近年来肿瘤标志物领域的研究热点。构建纳米生物传感器实现对肿瘤标志物的高灵敏、高特异性检测对肿瘤的检测与治疗具有重要意义。针对肿瘤标志物常规免疫检测的成本高、检测步骤繁琐、检测周期长等缺点,本文基于介孔二氧化硅微球与Fe3O4纳米磁珠,使用单链DNA分子与G-四链体分子作为标志物受体,构建了两
目的 探讨银杏内酯注射液联合阿替普酶治疗急性脑梗死的临床效果及对患者血流动力学、凝血功能的影响。方法 选取62例急性脑梗死患者作为研究对象,根据随机数字表法将其分为对照组和研究组,各31例。对照组采用阿替普酶治疗,研究组采用银杏内酯注射液联合阿替普酶治疗。比较两组的临床疗效、血流动力学指标、凝血功能指标及不良反应发生情况。结果 研究组的治疗总有效率高于对照组,差异具有统计学意义(P<0.05)。治
学位
自然界中强散射介质无处不在,穿透散射介质成像是如今大气遥感、生物医学检测、水下目标探测等诸多光学成像领域亟待解决的关键问题。为实现显微环境下散射介质内部目标的清晰成像,本文在分析目前常见的散射显微成像技术的基础上,研究一种基于光学记忆效应结合叠层成像原理的非侵入式、高分辨散射显微成像方法,并利用空间光调制器(Spatial Light Modulation,SLM)完成了相应模型简化实验。本文研究
无人驾驶技术作为汽车的未来发展方向,对于汽车甚至整个交通运输业来说有着深远的影响,而近年来,随着环境感知传感器和人工智能技术的不断发展,无人驾驶技术进入高速发展和产业化阶段。激光雷达是无人驾驶汽车使用的重要环境感知传感器之一,对激光雷达所采集的三维点云数据的分割和以此为基础进行的目标跟踪技术,能够为车辆的控制系统提供三维环境信息。无人车使用的多线激光雷达采集的三维点云数据具有噪声高、分辨率低等特点
学位
在人类获取的信息中,通过视觉获取的信息占总信息量百分之八十,随着科学技术的不断发展与进步,视觉信息的两种表现形式——图像和视频——已经作为信息载体呈现爆炸式增长趋势。视频的巨大数据量给它的存储和传输都带来了挑战,视频压缩技术因此成为了解决此问题的关键技术。与此同时,由于近些年来雾霾现象在人们生活中越来越常见,将视频中雾霾有效地去除、改善视频的清晰度也成为了计算机视觉领域的热门问题。本文针对现有的视
目的:研究血小板参数联合凝血指标对急性脑梗死(ACI)早期病情进展的预测价值。方法:依据是否发生早期病情进展,我院的305例ACI患者被分为进展组(80例)和未进展组(225例),比较两组一般临床资料、血小板参数及凝血功能指标,分析血小板参数联合凝血指标对ACI早期病情进展的预测价值。结果:与未进展组比较,进展组NIHSS评分,大动脉粥样硬化型(LAA)比例,合并高血压、糖尿病、高脂血症比例,有吸