基于Spark的大数据聚类研究及系统实现

来源 :数据采集与处理 | 被引量 : 0次 | 上传用户:leilei247472145
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不同类型的数据集,系统首先采用不同策略实现数据预处理;其次分析比较了不同聚类算法在Spark平台下的聚类性能,并给出最佳方案;最后利用数据持久化技术提高了计算速度。实验结果表明,所提系统能够有效满足海量数据聚类分析的任务要求。
其他文献
2010年广东省继续教育项目《全国小儿免疫性疾病研讨班》将于2010年7月20日至7月24日在广东省广州市五羊城酒店举办,主题是"儿科临床免疫相关性疾病的诊治"。内容涉及多个交叉
为了有效利用不同关键词检测系统的互补性,解决不同系统检测结果置信度得分不在同一范围的问题,提出了一种基于得分规整和系统融合的语音关键词检测方法。首先,为了克服连续
目的探讨新生儿重症监护病房(NICU)中极低出生体重儿(extremely low birth weight infants,ELBWI)非先天性胆汁淤积(简称胆汁淤积)的发生率和相关危险因素。方法回顾性分析NICU中23
1临床资料患儿,男,8d。因“脐部出血不止、肉眼血尿半天”第1次入院。患儿系G2P2,足月剖宫产,无窒息抢救史,Apgar评分、羊水、脐带无异常,出生体质量3.3kg。
民用导航雷达的方位分辨率与天线孔径尺寸相关,大孔径天线在工程实践中受等多种条件制约,难以广泛应用。本文提出一种基于拉格朗日的方位超分辨方法。对方位信号向量进行数据
目的 了解当前从我国住院肺炎儿童分离的肺炎链球菌血清型分布和不同血清型菌株对抗菌药物的耐药状况,评估应用疫苗预防儿童肺炎链球菌感染和控制耐药菌传播的价值。方法 肺
目的研究难治性癫痫(RE)患儿多药耐药基因(MDR1)的表达及其临床意义。方法提取难治性癫痫患儿(n=30)、非难治性癫痫患儿(n=30)和正常健康儿童(n=30)外周血标本,用荧光定量PCR方法分析比
提出一种新的基于离散余弦变换(Discretecosintransform,DCT)及其逆变换的离散多音调制系统实现方案,利用IDCT/DCT变换替代IF?T/FFT变换实现多载波信号的调制与解调,并对该系统的峰均
目的通过分析30例Alport综合征(AS)患儿肾脏和皮肤Ⅳ胶原分布特点,探讨Ⅳ胶原分布与临床表型的关系。方法对30例Alport综合征患儿资料进行总结,并分析。肾组织穿刺和皮肤活检中肾