基于Spark平台的改进DBSCAN算法研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:jiangshuang_1975
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新时代下信息技术的迅猛发展和广泛应用,互联网服务正在影响着人们的生产生活方式,海量的数据也随之产生,这使得利用数据挖掘工具从冗杂的原始数据中筛选出有价值的信息指导社会生产和生活变得越来越重要。DBSCAN(Density-Based Spatial Clustering of Application with Noise)算法作为应用广泛的密度聚类算法之一,具有能够发现任意形状的簇并且聚类效果不受噪声点影响等优点,是重要的数据挖掘方法。然而,该算法也存在一些缺陷:当数据规模较大时其对内存的需求过高;聚类结果对输入参数敏感,算法参数设置是其难点之一;此外,面对分布不均匀的数据其难以取得较好的聚类效果。针对上述不足之处,本文提出了结合闪电连接过程优化算法(Lightning Attachment Procedure Optimization Algorithm,LAPO)的改进DBSCAN算法,并在新一代大规模数据处理框架Spark下进行算法的并行化策略研究。本文的主要研究内容概括如下:(1)提出了一种基于LAPO算法的聚类中心获取方法。K-means聚类算法具有对数据集依赖度高和对初始聚类中心的选取敏感的缺点,利用智能优化算法的迭代搜索替代其递进式类中心寻找方式,可获得高质量的聚类中心。本文利用LAPO算法的优良搜索能力,搜索数据集较优的聚类中心。(2)设计了一种结合LAPO算法获得初始聚类中心划分数据集的改进DBSCAN算法(LAPO-DBSCAN)。改进后的算法分为数据划分、局部聚类以及聚类结果合并三个步骤。将基于LAPO算法的聚类中心获取方法用于改进数据的划分阶段,并使用只需一个输入参数的基于K近邻关系的DBSCAN算法进行密度聚类,设计了新的数据划分和聚类合并策略。改进算法的主要优点是降低了经典DBSCAN算法对内存的需求,增强了算法易用性,提升聚类效果。最后,通过对比实验分析验证了LAPO-DBSCAN算法优良的聚类效果。(3)实现了Spark平台下LAPO-DBSCAN算法的并行化运算。利用分布式计算框架提供的高效率、高可靠的计算能力,本文研究了LAPO-DBSCAN算法在Spark平台下的并行化策略,通过RDD算子编码实现了并行化LAPO-DBSCAN算法,并根据实践经验总结了Spark平台下并行算法的优化思路。最后设计实验验证并行算法的聚类效果和运行效率,结果表明Spark平台下的并行化LAPO-DBSCAN算法与单机上版本运行的聚类效果一致,且算法执行效率显著提高。
其他文献
气动噪声是高速行驶下汽车的主要噪声源,在组成气动噪声的三部分声源中,偶极子声源占主导地位,而偶极子声源又取决于车身表面脉动压力。应用双向流固耦合方法对汽车的表面脉
在阵列光纤与波导芯片的对准过程中,多自由度精密运动平台的运动精度直接影响其耦合效率。针对此问题,运用多体动力学理论,通过分析运动平台的各项误差源,建立了多自由度精密
目的探讨入户调查、集中推荐发现病人方式对提高肺结核病人发现的作用。方法采取政府组织、部门参与、开展健康教育,发动群众自报互报;镇村干部配合、乡村医生入户调查、登记
通过对英美学者集体行动理论的剖析,认为个人理性与集体理性之间存在冲突,集团规模是集体行动的不利条件,大集团在集体行动过程中将会出现志愿失灵。并进一步指出集体行动理
文章基于ECM提出一个新的阈值协整检验方法,目的在于把部分协整从阈值协整中区分开来,并对检验法的检验水平和检验势进行仿真研究。仿真研究发现:首先该统计量采用固定回归元
<正>目的:肌肉减少症是一种与年龄相关的综合征,其特征是骨骼肌质量和强度的进行性和全身性丧失;它是造成身体虚弱,老年人功能障碍,健康相关生活质量差和过早死亡风险的主要
目的 探讨95%乙醇腔内注射治疗耳廓假性囊肿的疗效。方法 首发耳廓假性囊肿,理疗失败,单纯穿抽液复发,单纯穿刺抽液加石膏或磁石固定复发,腔内药物注射(强的松,5-氟脲嘧啶,15%高渗盐水
阐述了高校学报与学科建设的关系,进而提出了高校学报在社会科学学科发展中应起的作用,即学报应该为推动社会科学相关学科的横向和纵向发展搭建学术平台;应引领哲学社会科学中某
当前社会上保健品中非法添加功能性物质引发的食品安全问题日益突出,常规检测方法不足以实现准确、及时的分析。本文采用NMR脉冲宽度定量(PULCON)技术,建立了定量检测保健品
随着当今社会的不断进步,人们在日常基本的衣食住行等到满足之后,开始逐步追求更高品质的生活,对赖以生存环境的关注度也日益增强。近年来,政府不断加大对环境污染问题的治理