基于Spark的空间聚类算法的并行化优化研究与应用

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:linmu22952
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机的软硬件技术高速发展下,如今已经进入了大数据信息阶段,传统的数据处理在面对数据规模较大的处理任务时,其执行速度和效率非常低甚至根本无法完成处理任务,分布式计算进而出现。目前主流分布式计算框架有Spark、Hadoop;常见集群计算模块有HDFS(Hadoop Distributed File System)分布式文件存储系统;Spark中特有的RDD(Resilient Distributed Datasets)弹性分布式数据集结构;Yarn资源调度引擎;MapReduce并行计算框架等等,以上所有模块的出现使得面对大数据时代的并行计算任务更加迅速且高效。对数据中隐含信息的进一步挖掘对我们现实应用和生产有着极其重要的实际指导意义。K-Means空间聚类分析作为空间数据挖掘技术中的一个重要方法,也是空间数据挖掘领域的重点研究方向之一。与此同时,传统的数据分析方法也无法在集成式环境下直接运行,这也是目前学术界和行业界在大数据领域研究的热点之一。另外,基本K-Means聚类算法采用Random方式确定簇类中心,使得该算法聚类结果稳健性不佳并且对样本离群点很敏感,严重甚至导致聚类失败。因此本文首先对传统的K-Means聚类算法初始化聚类中心点过程进行优化,并结合Spark平台特性,完成优化算法的并行化执行策略设计与实现。主要研究内容如下:(1)对K-Means算法的改进。传统K-Means算法对噪声点很敏感,使得传统K-Means聚类算法稳健性不佳。本文针对传统聚类算中心簇初始化部分进行改进,以提高算法的高效性和稳健性。(2)研究Hadoop相关的主要两大模块,MapReduce分布式框架和HDFS分布式存储系统;Spark的RDD结构、Spark SQL模块等;Yarn系统调度。在此基础上,为串行算法的并行化设计提供思路。(3)基于Spark框架实现改进K-Means算法的并行化设计,并根据Spark平台特性对资源参数和IO进行进一步优化。(4)并通过设计合理的测试实验,验证研究内容的有效性和高效性。实验主要通过在单机、Spark平台和Hadoop平台上运行。(5)将基于Spark并行化的改进K-Means算法应用于全国空气质量空间聚类分析,并将最终聚类结果进行可视化展示。通过空气等级指标的划分,证明研究内容的实用性和有效性。最后对以上研究内容进行具体的实验和测试,得到以下结论:(1)改进K-Means串行化算法单机上,其轮廓系数和CH(Calinski_Harabaz)值和要优于Spark MLilb自带的算法和原始K-Meas算法;(2)在集群模式下,Spark集群的并行化执行速度和加速比要优于传统的Hadoop集群;(3)通过对全国空气质量空间数据聚类分析,和已知的空气质量等级数据进行对比,验证本文的研究内容在全国空气质量空间数据挖掘领域的实用性和有效性。
其他文献
工业烟气的主要排放物质SO2和NO严重污染环境,而泥磷是黄磷企业产生的一种难以处理的含单质磷的固体废弃物,针对于此,本论文提出了一种以泥磷浆液作为吸收液,不添加任何其他
词汇是构成一门语言的“细胞”,是听、说、读、写等阅读技能的重要基础。已有研究表明大约1/3的词汇是在自然阅读中习得的。在阅读中学习新词,读者需要在语境中习得新词的形、音、义信息,还需要建立该词汇和其他词汇的关系。二语学习者学习二语时会受第一语言影响,维吾尔语属于拼音文字,与汉语存在差异,与绝大多数拼音文字也不同,字母的书写形态取决于在词汇中的位置。维吾尔语的独特性是否使得维语读者进行汉语二语学习时
发光金属-有机框架材料(Luminescent Meta-organic frameworks,发光MOFs)由于发光位点丰富、发光波长范围广、易于多功能修饰等优点,因而在照明、显示、通信、成像、荧光探测
特朗普政府上台后,一直高举“美国优先”的政治旗帜,随之由此演化成了“经济优先”与“军事优先”,并将此种政治原则完全应用于对日政策之中。美国的对日政策与战略态度在特朗普政府执政之后迎来了一波新的调整与发展,作为亚太及全球政治的主要影响因素,美国对日政策及美日关系的变化会从不同层面对中国的大国政策、亚太政策乃至对外关系等造成巨大影响。在综合评估日本所在美日同盟中的关键作用与战略地位后,特朗普政府制定了
Si是地球上储量最为丰富的元素,同时在应用方面Si材料具有其它半导体材料无法比拟的优越性,因此它被作为一种广泛应用的电子材料。与此同时,Si材料还是一种光子材料。但是由
我国汽油调和组分以催化裂化(FCC)汽油为主,80%左右的硫都来自于FCC汽油,FCC汽油中含硫化合物的脱除是汽油油品清洁化的关键。但是,加氢脱硫过程中硫化物脱除生成的H2S与烯烃分
天然气运输管道中经常会出现水合物堵塞的现象,易引起严重的工业问题,因此关于气体水合物风险防控技术一直是研究热点。作为该项研究重点之一的水合物动力学抑制剂的抑制机理
目的:1.分析ZNF831基因在临床肺腺癌患者中的表达情况及其与临床病理资料、生存预后之间的关系。2.探讨ZNF831基因在化学致癌物诱导肺腺癌发生过程中的表达变化及其在不同肺腺癌细胞株中的表达情况。3.初步探索ZNF831基因在肺腺癌发生发展过程中的主要生物学功能及作用机制。方法:1.基于TCGA数据库收集的数据,分析ZNF831基因在肺腺癌患者肿瘤组织和癌旁正常组织的表达情况及其与患者临床病理
钽铌酸钾(KTa1-xNbx O3,KTN)晶体因为其优异的电光性能和对环境无污染的优点受到科研人员的广泛研究。KTN晶体是一种多功能光电功能材料可用于光学器件的制备。由于其优良的
移动互联网的发展速度极大地超出了人们的想象,深刻地改变了个人、企业、政府等的行为和习惯,而智能手机的发展在整个移动互联网大潮中扮演着重要角色。近年来,随着智能手机