基于Hadoop的空间数据挖掘研究

被引量 : 0次 | 上传用户:li_qinglong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
空间数据挖掘是对空间数据中的隐含知识、空间关系自动提取的研究方法。空间数据既可以是点、线、面等空间实体数据,又可以是具有地理位置和属性特征的空间对象,数据类型繁多,使得单一的空间数据挖掘技术难以满足实际应用需求。并且数据量庞大,使得空间数据挖掘极为耗时,不能有效地满足其时效性需求。常见的空间数据挖掘技术包括统计分析方法、聚类分析方法、空间分析方法、计算几何方法等。计算几何中的Voronoi图方法能较好地表达空间实体的邻近关系,可以处理点、线、面等空间实体数据挖掘问题。而目前线、面等复杂实体目标的加权Voronoi图研究较少且效率较低,因此针对面元目标的加权Voronoi图研究具有重要价值。空间聚类方法是常用的空间数据挖掘技术,尤其是K-Means空间聚类方法,能够处理具有地理位置和属性特征的空间对象。但随着信息化社会的发展,空间数据呈爆炸式的增长,而串行算法计算效率不高,难以处理海量空间数据。鉴于Hadoop在处理大规模海量数据上的优势,本文对面元加权Voronoi图和K-Means空间聚类算法进行了MapReduce并行化设计,主要的工作成果总结如下:(1)对Hadoop相关技术进行了阐述,分析了分布式文件系统HDFS的工作机制和MapReduce的执行流程,为后续算法设计提供了理论依据。(2)针对具有较为复杂拓扑结构的面状空间数据,结合面元边界提取思想,改进了面元加权Voronoi图算法,并在Hadoop平台上实现了其并行化。并利用面元加权Voronoi图来解决空间数据挖掘中的空间目标影响范围界定问题。(3)针对具有地理位置和属性特征双重含义的空间数据,设计实现了基于Hadoop的K-Means空间聚类的并行化算法,并以新浪微博用户数据为例进行用户聚类,验证了算法的有效性和可行性。实现了基于Google Map的聚类可视化。
其他文献
建立了测定烟用水基胶中Pb和As含量的微波消解-石墨炉原子吸收光谱方法。结果表明:在优化条件下,Pb和As分别在0~50、0~20μg/L范围内,工作曲线的线性相关系数为0.9992、O.9995,方法的
<正>北京市海淀区花园路街道马甸西村路社区是一个上世纪80年代初建成的企业单位宿舍社区,居住人员大多为离退休人员。因为近年来企业改革、退休人员社会化管理,职工宿舍维护
<正>传统纸媒受众流失、广告下滑,移动客户端等新媒体日益壮大,传统媒体受众有很大一部分被分流到了互联网,特别是移动互联网。新浪、腾讯、搜狐、百度等纷纷推出各自的手机
湘潭,别称“莲城”,又称“潭城”,地处湘江中游,位于湖南中部,是湖湘文化的发源地之一。近代以来,湘潭成为湖南地区人才荟萃之地,这种现象的出现与近现代湘潭的教育分不开。甲午中日
<正>据英国《飞行国际》2007年10月报道,以制造和修理军民用航空发动机为主要业务的德国MTU航空发动机公司将环境友好的航空发动机部件验证机(CLEAN)研究项目的技术应用到普
经济法作为以社会公共利益为价值追求的国家干预经济的基本法律形式 ,在现实中表现为兼具独特的民族性和共同的时代性的存在形态。为了深入地确证和认知这样一个有着历史的地
<正>听作家迟子建讲,巴黎这座国际大都市竟是没有一处败笔的。有一天,她手握一张地图,独自在巴黎的小街里闲走。意兴阑珊时,她踅进一家装饰店,忽然发现虚拟得栩栩如生的壁炉
期刊
运用运动训练学原理对羽毛球的多球训练进行分析,得出羽毛球多球训练不仅能提高运动员的身体素质,而且也能提高运动员的专项运动技术;同时,羽毛球多球训练中,其球数、组合、
<正>一、浙江省平安城市建设的新特征浙江省作为集技术研发、产品制造、应用创新等于一体的安防产业大省,在平安城市建设、管理和应用上体现出了许多新的特征。1.基础建设层