基于Spark的聚类集成系统研究与设计

被引量 : 0次 | 上传用户:ylh644894056
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算技术的发展,大数据应用有了更广的扩展与延伸。大数据的价值开始日益受到重视,人们对数据处理的实时性和有效性的要求也在不断提高。聚类分析技术在大数据中的应用,使得人们从数据中获取信息、知识和决策支持更加容易。但是,传统串行式的聚类算法在处理海量或者高维数据时,聚类的速度不够快,且单一聚类算法在处理新的数据时表现不尽如人意(泛化性较差);在面对大规模数据时,受制于内存容量,往往不能有效地运行,因而传统串行式聚类算法已经难以满足当前实际应用的需求。为提高聚类性能,作为当前新的研究热点,聚类集成技术已被证明可以较大地提高传统聚类算法的性能。并行计算模型MapReduce的出现,使得大量用户能够在集群上分析超大数据集。然而MapReduce模型不是万能的,针对多数分布式聚类算法在基于MapReduce模型做并行时,采取的不合理并行策略以及并行聚类结果不理想等缺陷。本文提出基于弹性分布式数据集(RDDs)的分布式聚类集成算法,充分利用RDDs模型和聚类集成算法的优势,有效提高聚类分析在大数据应用中的聚类结果质量和处理能力。算法首先设计一个基于RDDs的分布式邻接表,解决关联数据在分布式环境中的表示和存储;其次利用分布式的共识函数模型,综合几个海量基聚类结果并用分布式邻接表表示;最后运用改进的分布式最近邻传播算法(MDAP),划分分布式邻接表以获得最终的聚类结果。Spark是继Hadoop之后的新一代大数据分布式处理框架。本文设计并实现了基于Spark的聚类集成系统,实现海量数据存储、处理、互操作,为大数据挖掘应用提供高可靠性、高性能的聚类集成系统。在系统架构设计时,采用分层的设计思想、面向组件设计的思路构建系统,自下而上依次分为:分布式计算层、基础平台层、算法分析层、云服务层和用户应用层。在系统实现的过程中,充分利用当下最流行的软件框架,缩短系统的开发周期,同时提高系统的质量。最后在本文的系统测试中,进行了系统核心算法的准确性测试和系统的性能测试,通过结果的分析与对比,证明了本文工作的有效性和实用性。
其他文献
在当代中国,发展社会主义先进文化就是建设以马克思主义为指导,坚守中华文化立场,立足当代中国现实,发展面向现代化、面向世界、面向未来,民族的科学的大众的社会主义文化。
从框架悬挂结构的自由振动基本方程入手,给出主体框架与悬挂楼层振型分量的关系,并在悬挂长度和质量比相等的条件下,推导出其频率计算公式,为研究分析该类结构动力特性变化规律和
以咸梅汁为辅料,研究新型咸梅乳酸菌饮料的加工工艺。研究结果表明,咸梅汁能赋予产品天然的酸度和良好的咸梅风味。咸梅乳酸菌饮料的最优加工工艺为:咸梅汁添加量20%,发酵乳
目的:对安徽医科大学第一附属医院烧伤病房近五年来临床分离的病原菌的菌株分布及耐药情况进行研究,分析其菌种变迁及耐药性变化情况,为临床抗感染治疗提供参考依据。方法:收集
<正>在所有与城市有关的"病症"里,城市交通恐怕是最受诟病的话题之一。在网上搜索,因为堵车的"名声"在外,"首都"北京被网友戏称为"首堵"。然而其他的城市也好不到哪里去,城市
降雨侵蚀力变化是一复杂过程,其变化存在一定的随机波动性,土壤侵蚀是三峡库区生态环境脆弱最主要的影响因素之一,查明库区土壤侵蚀强度的演化过程及未来趋势是库区生态文明
<正>苏霍姆林斯基说过:"任何一种教育形式,孩子在其中越少感觉到教育意图,它的教育效果就越大。"童话是一种与童心世界、与童年生命最近的儿童文学样式。它与儿童有一种投缘
本文从含金建造着眼,根据与含金矿源层(岩)相联系的金的成矿富集,分江西省金的成矿富集为4期12型,并指出其相应的找矿方向或靶点。
为了探讨加快军民融合创新体系建设的对策措施,运用理论研究和实践分析相结合的方法,从创新体系的基本构成入手,通过对军民融合创新体系的构成要素和运行机制的研究,结合对军
<正>党的十八大把生态文明建设列为建设中国特色社会主义"五位一体"的总体布局之一,同时要求把重点生态功能区保护作为推进生态文明建设的重点任务。大兴安岭森林生态功能区