基于P-Ring的大数据范围查询算法研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户：a4253272566

【摘要】

：

近年来，随着电子商务、社交网络以及数字城市等互联网应用的大规模发展，互联网数据正在急剧膨胀，目前企业在做出重要决策时都需通过有效的数据分析，比如通过分析用户数据得出用户

【作者】

：

张婷婷

【机构】

：

中国海洋大学

【出处】

：

中国海洋大学

【发表日期】

：

2014年期

【关键词】

：

范围查询大数据 P-Ring B+树 MapReduce

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，随着电子商务、社交网络以及数字城市等互联网应用的大规模发展，互联网数据正在急剧膨胀，目前企业在做出重要决策时都需通过有效的数据分析，比如通过分析用户数据得出用户的消费习惯。如何能从海量数据中得出对企业有效的信息成为企业的重要竞争力之一。目前进行范围查询时主要通过建立基于排序的索引，比如B+树或DST，但当系统的节点数及单个节点的数据量都骤增时，传统的数据索引会变得非常庞大，而且查询一般会局限于全局索引的速度，影响查询效率。此外还存在一种适合范围查询的索引结构P-Ring，它是一种基于具体数值的环形排序索引，每个节点保存一个从本节点值到其后继节点值之间的数值范围，并采用分级路由，其查询的结果为具体的数值而非文件的索引信息。本文主要基于大数据环境对P-Ring进行了改进并引入MapReduce和B+树，建立了双层索引。本文的查询环境为数据以文件为单位存储，范围查询的过程分为定位文件和查询数据。本文对P-Ring主要作了如下改进：1)在每个节点上增加了一个索引信息表名为infoTable，并对每个节点保存的数值范围进行分割，根据每次存入的数据将原来的范围分为若干个子范围。infoTable中保存此节点值到其后继节点值之间的范围所对应的文件的索引信息，包括文件名、文件地址。这个表的第一行为若干个子范围，即每次存储时将目前存在的范围拆分为以当前值为界限的子范围，第二行为每个子范围对应的文件，这种结构便于定位到具体的文件，提高查询效率。2)对路由表进行了改进，建立了双向路由，即基于后继节点和前驱节点的路由，同样采用多级路由机制，每个节点保存一个多层的双向路由表。理论上降低了原来P-Ring进行查找时节点的跳数。本文中的范围查询算法利用MapReduce框架组织系统中的各个节点，节点间的逻辑关系为改进后的P-Ring，这个结构保存在Master节点中。此外为每个文件建立一个B+树索引。每次查询时首先将查询条件发送给Master，进行基于P-Ring的索引，找到符合条件的文件，然后将这些文件的索引信息发送给Map节点，由它们进行基于B+树的索引，此过程为高度并行。文章的最后对本文中的算法进行了实验验证，在由6个节点搭建的平台上进行了实验，选取了三个性能指标即最大跳数，平均跳数与响应时间作为衡量算法的标准。实验结果表明此算法可行，且性能不受查询范围长度的影响。

其他文献

基于RBF网络的传感器校正和补偿系统研究与实现

传感技术是信息科学的基础,传感器技术是现代信息技术的重要支柱之一,几乎渗透到科学技术和国民经济的每个角落。传感器网络是由一定数量的传感器节点通过某种有线或无线协议

学位

神经网络智能传感器RBF最近邻聚类非线性

面向人机工程仿真的虚拟人体运动控制技术

随着计算机软硬件、计算机图形学、计算机辅助设计、虚拟现实以及人工智能等技术的发展,融合了这些因素的计算机辅助人机工程正获得越来越广泛的关注与应用。许多复杂高

学位

虚拟人体建模解剖学运动重定向逆向运动学运动捕获时空约束

基于上下文感知的动态数据融合算法研究

随着网络技术的发展，信息服务被应用到现实世界中，面对周围环境的大量的信息服务，如何适时为用户提供合适的服务，从而提高用户对信息服务的满意度，成为当今热门的研究方向。为了达

学位

数字家庭上下文感知动态数据融合贝叶斯网络效用值

基于QoS的服务选择模型与研究

Web服务是新形式的因特网软件，它统一使用因特网协议布置和调用，来自不同服务商的服务被整合以提供一个组合服务。随着Web服务技术日新月异的发展，服务提供者之间竞争的加剧，通常

学位

服务质量服务选择服务组合模型解决方法

移动机器人仿真系统及其路径规划方法的研究

随着计算机技术的发展，机器人系统的理论及应用研究已经成为人工智能研究的热点，这其中比较有代表性的就是移动机器人系统的研究。移动机器人的路径规划是移动机器人技术研究中

学位

移动机器人足球机器人路径规划人工势场仿真系统

一种基于DHT的P2P文件交换系统的设计与实现

P2P即Peer to Peer，称为对等通信，是一种全新的互联网技术，它将传统的以服务器为中心的互联网应用模式提升为以用户为中心的对等模式。 P2P在文件交换，对等计算，协同工作，搜索服

学位

对等网络文件共享DHTWBXMLNAT

水下机器人自主导航算法的研究

随着世界各国在海洋开发方面展开日趋激烈的竞争，对具有自主导航能力的水下机器人的要求越来越高，需求也越来越大。机器人配备单一的传感器如声纳等现已无法满足高精度的自主导

学位

自主导航SLAM扩展卡尔曼滤波U卡尔曼滤波基于图优化的SLAM框架变学习率

正负关联规则数据挖掘算法的研究

随着当前IT技术、电子商务及互联网的快速发展和迅速普及,导致在各个应用领域的数据库中存储了大量的数据,这些数据集中包含了很多有用的知识,因此如何发现各种大型数据库中

学位

数据挖掘关联规则相关性正负关联规则

机器人足球比赛态势分析与性能评测系统研究

机器人足球比赛是人工智能和机器人学研究的一个新的标准问题,它以多智能体系统(MAS)和分布式人工智能(DAI)为主要研究背景,其研究的主要目的就是通过提供一个标准的、易于评

学位

机器人足球策略态势评估模糊综合评判性能评测

基于依赖性分析的程序切片技术研究

程序切片是一种重要的程序分析理解方法,用于从源程序中抽取对程序中特定点上的特定变量有影响的语句和控制条件,组成新的程序(称作切片),然后通过分析切片来分析源程序的行

学位

程序切片依赖性分析面向对象并发测试可测试性覆盖率内聚度

基于P-Ring的大数据范围查询算法研究

与本文相关的学术论文