基于云计算的空间聚类分析研究

被引量 : 0次 | 上传用户:Ghost_D
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
空间聚类分析作为聚类分析的一个重要研究方向,是指将空间数据集中的数据对象分成由相似数据对象组成的类,同类中的数据对象间具有较高的相似度,而不同类中的数据对象间差异较大。它不仅是空间数据挖掘的重要方法,也是其它挖掘任务的前奏。在当今这个信息技术高速发展的时代,数据信息呈多样化、海量化、高维化趋势发展。面对大量的空间信息,能够快速准确地从中提取隐含的有用知识,来指导实践,日益成为人类的迫切需求,但在单机上进行传统的串行聚类分析就会面临内存容量、CPU处理速度等瓶颈问题,很难满足实际需求。虚拟化与并行技术的出现,为其提供了很好的解决方案。云计算作为目前国内外研究的热点,是网格计算、并行计算、分布式计算的发展,其思想是在并行化计算与存储思想的基础之上发展而来的。它可以有效地解决分析和处理海量数据时所面临的问题,为海量高维空间数据的聚类分析提供了强有力的支持。特别是Google的MapReduce分布式编程模型的提出,使聚类算法的并行化实现变得更为简单可靠。本文在深入研究空间聚类算法与云计算关键技术HDFS(Hadoop Distributed FileSystem)和MapReduce的基础之上,实现了并行化K-Medoids和PGDC算法的MapReduce模型,并对改进算法进行了仿真实验,对实验结果进行了深入分析。本文主要研究内容包括以下几个方面:1)研究空间聚类算法,对各种聚类算法的基本原理及其优缺点进行分析总结。2)研究并行化思想和云计算及其关键技术,在云计算环境下对空间聚类算法进行深入分析研究,将聚类算法与MapReduce编程模型相结合,研究建立并行化聚类模型。在分析比较基于Hadoop平台的K-Means和Canopy-K-Means等并行化算法的基础上,提出了改进的K-Medoids和基于网格密度的PGDC并行化算法,并对其进行了实现。3)对并行化聚类算法进行了仿真实验,分别从算法的有效性、加速比和可扩展性三方面对算法进行了深入分析,并以粮库选址模型为例,对算法进行了实际应用测试。实验测试结果表明,提出的并行化聚类算法能够高效的得到较好的聚类结果,在大数量数据集上具有较强的存储能力和计算速度,在实际应用当中有较高的实用性和可扩展性。
其他文献
运用1992—2014年我国贸易数据对服务贸易与货物贸易关系进行实证分析,其中协整分析结果表明二者之间存在长期均衡关系;基于格兰杰因果关系检验结果显示,现阶段我国货物贸易
现金持有量是公司财务策略和经营策略的一项重要政策,现金持有量的多少一方面可以有效反映公司治理的结果,另一方面还可以有效反映公司所处的融资环境。而影响现金持有量的影
传统的基站建设模式面临方方面面带来的阻力,严重影响工程进度的顺利进行。通过改进传统的基站建设模式,与政府职能部门开展合作,使基站建设同步于城市基础设施的建设,实现了
Link-16数据链系统所应用的环境是无线网络通信,战场上多变的电磁环境会影响通信的可靠性。这种多变的电磁环境对通信的干扰包括很多种,有敌意人为干扰、噪声和多径干扰、多用
海面小目标检测的研究一直是雷达信号处理领域研究的热点,在工程应用方面有着不容忽视的地位。随着中国的航空母舰首次试航成功,海面小目标检测的研究热度在国内继续升温。海面
陈学昭作为中国女性解放的先驱,她初登文坛就表现出了对女性命运的极大关注。她早期的文学创作可以看做是"五四"时期觉醒女性的悲鸣,她以自己独特的生命体验和生活经历为素材
目的探讨江苏地区2型糖尿病易感基因CDKAL1、CDKN2A-CDKN2B、TCF7L2及HHEX-IDE的单核苷酸多态性(SNP)与妊娠期糖尿病(GDM)的关系。方法采用病例对照法及多重SNaPshot SNP分型
供应链管理思想目前已经被世界各地的企业达成共识,只有对整个供应链系统进行计划、协调、操作、控制和优化,才能将将顾客所需的正确的产品能够在正确的时间、按照正确的数量
目的探讨不同孕期及不同年龄段妊娠妇女甲状腺相关激素[血清游离三碘甲状原氨酸(FT3)、游离甲状腺素(FT4)、促甲状腺激素(TSH)、总三碘甲状腺原氨酸(T3)、总甲状腺素(T4)]水
目的对ABI-7300荧光定量PCR仪与DA-7600荧光定量PCR仪检测HBV-DNA的结果进行比对和偏差评估。方法参照EP-9A2文件,分别在两台仪器上检测40例患者样本(浓度分布整个线性范围),