基于云计算的空间聚类分析研究

被引量 : 0次 | 上传用户：Ghost_D

【摘要】

：

空间聚类分析作为聚类分析的一个重要研究方向，是指将空间数据集中的数据对象分成由相似数据对象组成的类，同类中的数据对象间具有较高的相似度，而不同类中的数据对象间差异较大

【作者】

：

赵广才

【发表日期】

：

2012年期

【关键词】

：

云计算 MapReduce 空间聚类 K-Medoids PGDC

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

空间聚类分析作为聚类分析的一个重要研究方向，是指将空间数据集中的数据对象分成由相似数据对象组成的类，同类中的数据对象间具有较高的相似度，而不同类中的数据对象间差异较大。它不仅是空间数据挖掘的重要方法，也是其它挖掘任务的前奏。在当今这个信息技术高速发展的时代，数据信息呈多样化、海量化、高维化趋势发展。面对大量的空间信息，能够快速准确地从中提取隐含的有用知识，来指导实践，日益成为人类的迫切需求，但在单机上进行传统的串行聚类分析就会面临内存容量、CPU处理速度等瓶颈问题，很难满足实际需求。虚拟化与并行技术的出现，为其提供了很好的解决方案。云计算作为目前国内外研究的热点，是网格计算、并行计算、分布式计算的发展，其思想是在并行化计算与存储思想的基础之上发展而来的。它可以有效地解决分析和处理海量数据时所面临的问题，为海量高维空间数据的聚类分析提供了强有力的支持。特别是Google的MapReduce分布式编程模型的提出，使聚类算法的并行化实现变得更为简单可靠。本文在深入研究空间聚类算法与云计算关键技术HDFS(Hadoop Distributed FileSystem)和MapReduce的基础之上，实现了并行化K-Medoids和PGDC算法的MapReduce模型，并对改进算法进行了仿真实验，对实验结果进行了深入分析。本文主要研究内容包括以下几个方面：1)研究空间聚类算法，对各种聚类算法的基本原理及其优缺点进行分析总结。2)研究并行化思想和云计算及其关键技术，在云计算环境下对空间聚类算法进行深入分析研究，将聚类算法与MapReduce编程模型相结合，研究建立并行化聚类模型。在分析比较基于Hadoop平台的K-Means和Canopy-K-Means等并行化算法的基础上，提出了改进的K-Medoids和基于网格密度的PGDC并行化算法，并对其进行了实现。3)对并行化聚类算法进行了仿真实验，分别从算法的有效性、加速比和可扩展性三方面对算法进行了深入分析，并以粮库选址模型为例，对算法进行了实际应用测试。实验测试结果表明，提出的并行化聚类算法能够高效的得到较好的聚类结果，在大数量数据集上具有较强的存储能力和计算速度，在实际应用当中有较高的实用性和可扩展性。

其他文献

我国服务贸易与货物贸易关系的实证分析

运用1992—2014年我国贸易数据对服务贸易与货物贸易关系进行实证分析,其中协整分析结果表明二者之间存在长期均衡关系;基于格兰杰因果关系检验结果显示,现阶段我国货物贸易

期刊

服务贸易货物贸易协整分析格兰杰因果关系

民营上市公司终极控制人股权结构特征与现金持有量关系研究

现金持有量是公司财务策略和经营策略的一项重要政策,现金持有量的多少一方面可以有效反映公司治理的结果,另一方面还可以有效反映公司所处的融资环境。而影响现金持有量的影

学位

金字塔控股结构控制权现金流权两权偏离度现金持有

创新基站建设模式,减少基站建设阻力

传统的基站建设模式面临方方面面带来的阻力,严重影响工程进度的顺利进行。通过改进传统的基站建设模式,与政府职能部门开展合作,使基站建设同步于城市基础设施的建设,实现了

期刊

基站建设城市规划

数据链系统中RS编译码研究及其实现

Link-16数据链系统所应用的环境是无线网络通信，战场上多变的电磁环境会影响通信的可靠性。这种多变的电磁环境对通信的干扰包括很多种，有敌意人为干扰、噪声和多径干扰、多用

学位

数据链RS码硬判决译码软判决译码FPGA

基于SVM的海面小目标检测的研究

海面小目标检测的研究一直是雷达信号处理领域研究的热点，在工程应用方面有着不容忽视的地位。随着中国的航空母舰首次试航成功，海面小目标检测的研究热度在国内继续升温。海面

学位

海杂波混沌特性支持向量机小波变换粒子群

论陈学昭早期文学创作中的女性意识

陈学昭作为中国女性解放的先驱,她初登文坛就表现出了对女性命运的极大关注。她早期的文学创作可以看做是"五四"时期觉醒女性的悲鸣,她以自己独特的生命体验和生活经历为素材

期刊

陈学昭文学创作女性意识男权时代女性

江苏地区2型糖尿病易感基因单核苷酸多态性与妊娠期糖尿病关系的研究

目的探讨江苏地区2型糖尿病易感基因CDKAL1、CDKN2A-CDKN2B、TCF7L2及HHEX-IDE的单核苷酸多态性(SNP)与妊娠期糖尿病(GDM)的关系。方法采用病例对照法及多重SNaPshot SNP分型

期刊

多态性单核苷酸糖尿病妊娠易感基因

销售和质量努力水平扰动的供应链回购契约

供应链管理思想目前已经被世界各地的企业达成共识,只有对整个供应链系统进行计划、协调、操作、控制和优化,才能将将顾客所需的正确的产品能够在正确的时间、按照正确的数量

学位

回购契约销售努力质量努力

不同孕期不同年龄段孕妇甲状腺激素水平的研究分析

目的探讨不同孕期及不同年龄段妊娠妇女甲状腺相关激素[血清游离三碘甲状原氨酸(FT3)、游离甲状腺素(FT4)、促甲状腺激素(TSH)、总三碘甲状腺原氨酸(T3)、总甲状腺素(T4)]水

期刊

妊娠甲状腺激素类年龄

比对两台荧光定量PCR仪检测HBV-DNA结果一致性研究

目的对ABI-7300荧光定量PCR仪与DA-7600荧光定量PCR仪检测HBV-DNA的结果进行比对和偏差评估。方法参照EP-9A2文件,分别在两台仪器上检测40例患者样本(浓度分布整个线性范围),

期刊

乙型肝炎病毒偏倚结果比对荧光定量PCR仪

基于云计算的空间聚类分析研究

与本文相关的学术论文