基于Spark的大数据聚类研究及系统实现

来源 :数据采集与处理 | 被引量 : 0次 | 上传用户：leilei247472145

【摘要】

：

传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实

【作者】

：

王磊邹恩岑曾诚奚雪峰陆悠

【机构】

：

苏州科技大学电子与信息工程学院,苏州市虚拟现实智能交互及应用技术重点实验室,苏州科技大学普开大数据重点实验室,昆山市公安局指挥中心

【出处】

：

数据采集与处理

【发表日期】

：

2018年6期

【关键词】

：

SPARK 聚类大数据 Spark clustering big data

【基金项目】

：

国家自然科学基金(61673290,61750110534,61728205)资助项目,苏州市科技发展计划(SYG201707,SYG201817)资助项目

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不同类型的数据集,系统首先采用不同策略实现数据预处理;其次分析比较了不同聚类算法在Spark平台下的聚类性能,并给出最佳方案;最后利用数据持久化技术提高了计算速度。实验结果表明,所提系统能够有效满足海量数据聚类分析的任务要求。

其他文献

儿童免疫性疾病研讨班通知

2010年广东省继续教育项目《全国小儿免疫性疾病研讨班》将于2010年7月20日至7月24日在广东省广州市五羊城酒店举办,主题是＂儿科临床免疫相关性疾病的诊治＂。内容涉及多个交叉

期刊

免疫性疾病巨噬细胞活化综合征幼年特发性关节炎免疫相关性疾病系统性红斑狼疮过敏性紫癜儿童继续教育项目

基于得分归一化和系统融合的语音关键词检测方法

为了有效利用不同关键词检测系统的互补性,解决不同系统检测结果置信度得分不在同一范围的问题,提出了一种基于得分规整和系统融合的语音关键词检测方法。首先,为了克服连续

期刊

关键词检测得分归一化系统融合软Beam剪枝keyword spotting score normalization system combinati

极低出生体重儿非先天性胆汁淤积发病的危险因素分析

目的探讨新生儿重症监护病房（NICU）中极低出生体重儿（extremely low birth weight infants,ELBWI）非先天性胆汁淤积（简称胆汁淤积）的发生率和相关危险因素。方法回顾性分析NICU中23

期刊

极低出生体重儿胆汁淤积危险因素extremely low birth weigh infants cholestasis risk factor

新生儿获得性凝血因子Ⅴ缺乏症1例报告

1临床资料患儿，男，8d。因“脐部出血不止、肉眼血尿半天”第1次入院。患儿系G2P2，足月剖宫产，无窒息抢救史，Apgar评分、羊水、脐带无异常，出生体质量3．3kg。

期刊

凝血因子V缺乏症获得性新生儿APGAR评分出生体质量临床资料出血不止肉眼血尿

基于拉格朗日的雷达方位超分辨方法

民用导航雷达的方位分辨率与天线孔径尺寸相关,大孔径天线在工程实践中受等多种条件制约,难以广泛应用。本文提出一种基于拉格朗日的方位超分辨方法。对方位信号向量进行数据

期刊

雷达方位超分辨二次规划拉格朗日函数radarazimuth super-resolutionquadratic programmingLagran

住院肺炎患儿不同血清型肺炎链球菌对抗菌药物的耐药性分析

目的了解当前从我国住院肺炎儿童分离的肺炎链球菌血清型分布和不同血清型菌株对抗菌药物的耐药状况,评估应用疫苗预防儿童肺炎链球菌感染和控制耐药菌传播的价值。方法肺

期刊

肺炎链球菌分型抗菌药物耐药性儿童Streptococcus pneumoniae typing antimicrobial resistance

难治性癫患儿多药耐药基因的表达及意义

目的研究难治性癫痫（RE）患儿多药耐药基因（MDR1）的表达及其临床意义。方法提取难治性癫痫患儿（n=30）、非难治性癫痫患儿（n=30）和正常健康儿童（n=30）外周血标本,用荧光定量PCR方法分析比

期刊

难治性癫多药耐药基因荧光定量PCR儿童refractory epilepsy multidrug resistance gene fluoresc

基于DCT的DMT系统设计与峰均功率比分析

提出一种新的基于离散余弦变换（Discretecosintransform，DCT）及其逆变换的离散多音调制系统实现方案，利用IDCT／DCT变换替代IF？T／FFT变换实现多载波信号的调制与解调，并对该系统的峰均

期刊

离散多音调制峰均功率比离散余弦变换互补累计概率函数discrete multitone modulation peak to average powe

儿童Alport综合征30例肾脏和皮肤Ⅳ胶原分布特点

目的通过分析30例Alport综合征（AS）患儿肾脏和皮肤Ⅳ胶原分布特点，探讨Ⅳ胶原分布与临床表型的关系。方法对30例Alport综合征患儿资料进行总结，并分析。肾组织穿刺和皮肤活检中肾

期刊

ALPORT综合征肾组织活检皮肤活检Ⅳ胶原Alport syndrome renal biopsy skin biopsy Ⅳ collag

Gambro AK-95血液透析机故障调校两例

期刊

血液透析机GambroAK-95漏血探测器调校透析液错误代码水平位置预冲酒精棉吸

基于Spark的大数据聚类研究及系统实现

与本文相关的学术论文