基于Spark平台的改进DBSCAN算法研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户：jiangshuang_1975

【摘要】

：

【作者】

：

刘燕

【出处】

：

湖北工业大学

【发表日期】

：

2020年12期

【关键词】

：

Spark平台 DBSCAN算法闪电连接过程优化算法并行计算

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着新时代下信息技术的迅猛发展和广泛应用,互联网服务正在影响着人们的生产生活方式,海量的数据也随之产生,这使得利用数据挖掘工具从冗杂的原始数据中筛选出有价值的信息指导社会生产和生活变得越来越重要。DBSCAN(Density-Based Spatial Clustering of Application with Noise)算法作为应用广泛的密度聚类算法之一,具有能够发现任意形状的簇并且聚类效果不受噪声点影响等优点,是重要的数据挖掘方法。然而,该算法也存在一些缺陷:当数据规模较大时其对内存的需求过高;聚类结果对输入参数敏感,算法参数设置是其难点之一;此外,面对分布不均匀的数据其难以取得较好的聚类效果。针对上述不足之处,本文提出了结合闪电连接过程优化算法(Lightning Attachment Procedure Optimization Algorithm,LAPO)的改进DBSCAN算法,并在新一代大规模数据处理框架Spark下进行算法的并行化策略研究。本文的主要研究内容概括如下:(1)提出了一种基于LAPO算法的聚类中心获取方法。K-means聚类算法具有对数据集依赖度高和对初始聚类中心的选取敏感的缺点,利用智能优化算法的迭代搜索替代其递进式类中心寻找方式,可获得高质量的聚类中心。本文利用LAPO算法的优良搜索能力,搜索数据集较优的聚类中心。(2)设计了一种结合LAPO算法获得初始聚类中心划分数据集的改进DBSCAN算法(LAPO-DBSCAN)。改进后的算法分为数据划分、局部聚类以及聚类结果合并三个步骤。将基于LAPO算法的聚类中心获取方法用于改进数据的划分阶段,并使用只需一个输入参数的基于K近邻关系的DBSCAN算法进行密度聚类,设计了新的数据划分和聚类合并策略。改进算法的主要优点是降低了经典DBSCAN算法对内存的需求,增强了算法易用性,提升聚类效果。最后,通过对比实验分析验证了LAPO-DBSCAN算法优良的聚类效果。(3)实现了Spark平台下LAPO-DBSCAN算法的并行化运算。利用分布式计算框架提供的高效率、高可靠的计算能力,本文研究了LAPO-DBSCAN算法在Spark平台下的并行化策略,通过RDD算子编码实现了并行化LAPO-DBSCAN算法,并根据实践经验总结了Spark平台下并行算法的优化思路。最后设计实验验证并行算法的聚类效果和运行效率,结果表明Spark平台下的并行化LAPO-DBSCAN算法与单机上版本运行的聚类效果一致,且算法执行效率显著提高。

其他文献

流固耦合作用对汽车侧窗气动噪声的影响

气动噪声是高速行驶下汽车的主要噪声源,在组成气动噪声的三部分声源中,偶极子声源占主导地位,而偶极子声源又取决于车身表面脉动压力。应用双向流固耦合方法对汽车的表面脉

期刊

汽车气动噪声脉动压力流固耦合automobile aerodynamic noise fluctuating pressure fluid-struct

平面光波导精密对准平台运动误差的敏感性分析

在阵列光纤与波导芯片的对准过程中,多自由度精密运动平台的运动精度直接影响其耦合效率。针对此问题,运用多体动力学理论,通过分析运动平台的各项误差源,建立了多自由度精密

期刊

光波导对准精密运动平台多体动力学敏感性分析optical waveguide alignment precise motion stage multi-

四川省成都市入户调查集中推荐可疑症状者检查发现肺结核患者分析

目的探讨入户调查、集中推荐发现病人方式对提高肺结核病人发现的作用。方法采取政府组织、部门参与、开展健康教育,发动群众自报互报;镇村干部配合、乡村医生入户调查、登记

期刊

结核肺/流行病学患病率成都市

集体行动理论思想渊源探析

通过对英美学者集体行动理论的剖析,认为个人理性与集体理性之间存在冲突,集团规模是集体行动的不利条件,大集团在集体行动过程中将会出现志愿失灵。并进一步指出集体行动理

期刊

奥尔森集体行动志愿失灵Olsoncollective actionvolunteerism failure

一种新的阈值协整检验方法的仿真研究

文章基于ECM提出一个新的阈值协整检验方法,目的在于把部分协整从阈值协整中区分开来,并对检验法的检验水平和检验势进行仿真研究。仿真研究发现：首先该统计量采用固定回归元

期刊

阈值协整部分协整Monte-Carlo仿真检验势检验水平

肌肉减少症的研究进展

<正>目的:肌肉减少症是一种与年龄相关的综合征,其特征是骨骼肌质量和强度的进行性和全身性丧失;它是造成身体虚弱,老年人功能障碍,健康相关生活质量差和过早死亡风险的主要

会议

肌肉功能肌肉质量预防治疗

95％乙醇腔内注射治疗耳廓假性囊肿134例

目的探讨95％乙醇腔内注射治疗耳廓假性囊肿的疗效。方法首发耳廓假性囊肿，理疗失败，单纯穿抽液复发，单纯穿刺抽液加石膏或磁石固定复发，腔内药物注射（强的松，5-氟脲嘧啶，15％高渗盐水

期刊

耳廓假性囊肿腔内注射95%乙醇

高校学报在社会科学相关学科发展中应起的作用

阐述了高校学报与学科建设的关系，进而提出了高校学报在社会科学学科发展中应起的作用，即学报应该为推动社会科学相关学科的横向和纵向发展搭建学术平台；应引领哲学社会科学中某

期刊

高校学报社会科学学科建设journals of colleges and universities social science discipline c

保健品内非法添加功能性物质的NMR脉冲宽度定量方法研究

当前社会上保健品中非法添加功能性物质引发的食品安全问题日益突出,常规检测方法不足以实现准确、及时的分析。本文采用NMR脉冲宽度定量(PULCON)技术,建立了定量检测保健品

会议

核磁共振脉冲宽度定量高效液相色谱甲苯磺丁脲

短时高浓度与长时低浓度下PM2.5暴露的差异性

随着当今社会的不断进步,人们在日常基本的衣食住行等到满足之后,开始逐步追求更高品质的生活,对赖以生存环境的关注度也日益增强。近年来,政府不断加大对环境污染问题的治理

会议

暴露差异性PM2.5健康风险炎症反应抗氧化能力

基于Spark平台的改进DBSCAN算法研究

与本文相关的学术论文