基于MapReduce的空间数据RkNN算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zjg760623
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,随着移动互联网技术和地理信息技术的发展,基于位置服务应用逐渐兴起,从而使得空间定位信息的数据量呈现以指数级增长。而在地理位置信息相关的空间数据查询中,RkNN (Reverse k Nearest Neighbor,反最近邻)查询问题是通过返回所给查询点周围的对象中,以该查询点作为其kNN (k Nearest Neighbor,最近邻)的所有对象的集合,其在多种数据挖掘应用中备受关注。同样传统的RkNN方法也已难以满足迅猛增长的数据速度以及用户们的大规模实时查询要求。本文将传统的RkNN算法与MapReduce分布式框架相结合,分析如何解决大规模空间数据的分布式RkNN查询问题。MapReduce是2004年由谷歌公司提出的一个用来进行并行处理和生成大数据集的模型,而MapReduce框架作为分布式计算中的典型的离线计算框架,很难实现实时性计算效果。因此,本文采用了离线和在线相结合的系统模型,利用MapReduce框架离线完成倒排网格索引的创建和更新工作,同时结合在线计算方法返回RkNN查询结果。文中首先提出基于大规模空间数据集上的倒排网格索引的暴力RkNN查询算法——Basic-MRkNN算法;接下来提出对此算法的优化算法——延迟Lazy-MRkNN查询算法和增量式Eager-MRkNN查询算法。为了减少网络和磁盘I/O开销,在过滤过程中利用了一些剪枝规则来提高本文提出的分布式算法性能。此外,通过在32个节点的集群上对模拟数据集和真实数据集的大量实验表明,本文提出的基本算法在与泰森多边形分布式RkNN查询算法相比时能提速50%以上。此外,两种优化算法均优于基本算法,Eager-MRkNN算法比较适合处理密集型数据,而Lazy-MRkNN算法比较适合处理稀疏型数据。
其他文献
随着互联网的迅速发展,近几年来社交网络服务越来越流行,成为了很多人生活中的重要组成部分。社交网络的流行在带给人们便利的同时,也给人们带来了信息过载的困扰,推荐系统是解决
云制造是一种网络化制造新模式,它旨在实现基于知识的制造资源共享与按需使用,从而提高资源利用率和企业核心竞争力。服务组合与优选是实现制造资源优化配置的核心技术之一,鉴于
基因芯片技术是研究基因表达谱数据的一种有效工具,通过分析基因表达谱数据中的数千个基因数据,在医学等领域得到了广泛的应用。基因表达谱数据急速增长,表现出规模庞大、内容复
随着数据爆炸时代的到来,如何高效地对TB级甚至是PB的大规模数据进行处理是业界迫切急需解决的问题。在应用需求和技术推动下,云计算作为一种新的计算模式被提出来了,并逐步成为
由于以IPv4为核心的互联网出现的问题越来越多,各个国家的新一代互联网研究计划不断启动、实施和重组,其研究工作和实验正在不断的深入。目前关于新一代互联网的研究,有人想
近年来,随着信息技术和通信网络的飞速发展,人们获取信息的方式从大量的物质介质转化为网络文档,这种发展给人们带来了方便的同时也给我们的生活和技术本身的发展起到负面的
数据预测是指在分析现有数据的基础上估计或推测未来的数据的过程。随着Internet和数据库技术的迅速发展,数据预测方法及其应用研究已经越来越为人们所重视。目前,常用的预测方
传统的物资管理系统,由于采用人工手写票据的管理方式,不但工序繁杂、容易导致人为损失,而且人工和物流成本极高。产品结构在持续发展的企业规模的推动下日趋复杂,并且整个市场对
随着我国经济的不断发展,在日常生活和工业生产中产生的固体废物总量也在持续高速增长,这些固体废物种类繁多、性质复杂,给目前的固体废物监控管理工作带来极大的不便,传统的管理
无线传感器网络(Wireless Sensor Networks, WSNs)数据融合(DataAggregation),是指将多个传感器节点的数据进行处理,以消除数据冗余传输,并将融合结果发送到基站的一种技术。通过降