基于P-Ring的大数据范围查询算法研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:a4253272566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着电子商务、社交网络以及数字城市等互联网应用的大规模发展,互联网数据正在急剧膨胀,目前企业在做出重要决策时都需通过有效的数据分析,比如通过分析用户数据得出用户的消费习惯。如何能从海量数据中得出对企业有效的信息成为企业的重要竞争力之一。目前进行范围查询时主要通过建立基于排序的索引,比如B+树或DST,但当系统的节点数及单个节点的数据量都骤增时,传统的数据索引会变得非常庞大,而且查询一般会局限于全局索引的速度,影响查询效率。此外还存在一种适合范围查询的索引结构P-Ring,它是一种基于具体数值的环形排序索引,每个节点保存一个从本节点值到其后继节点值之间的数值范围,并采用分级路由,其查询的结果为具体的数值而非文件的索引信息。本文主要基于大数据环境对P-Ring进行了改进并引入MapReduce和B+树,建立了双层索引。本文的查询环境为数据以文件为单位存储,范围查询的过程分为定位文件和查询数据。本文对P-Ring主要作了如下改进:1)在每个节点上增加了一个索引信息表名为infoTable,并对每个节点保存的数值范围进行分割,根据每次存入的数据将原来的范围分为若干个子范围。infoTable中保存此节点值到其后继节点值之间的范围所对应的文件的索引信息,包括文件名、文件地址。这个表的第一行为若干个子范围,即每次存储时将目前存在的范围拆分为以当前值为界限的子范围,第二行为每个子范围对应的文件,这种结构便于定位到具体的文件,提高查询效率。2)对路由表进行了改进,建立了双向路由,即基于后继节点和前驱节点的路由,同样采用多级路由机制,每个节点保存一个多层的双向路由表。理论上降低了原来P-Ring进行查找时节点的跳数。本文中的范围查询算法利用MapReduce框架组织系统中的各个节点,节点间的逻辑关系为改进后的P-Ring,这个结构保存在Master节点中。此外为每个文件建立一个B+树索引。每次查询时首先将查询条件发送给Master,进行基于P-Ring的索引,找到符合条件的文件,然后将这些文件的索引信息发送给Map节点,由它们进行基于B+树的索引,此过程为高度并行。文章的最后对本文中的算法进行了实验验证,在由6个节点搭建的平台上进行了实验,选取了三个性能指标即最大跳数,平均跳数与响应时间作为衡量算法的标准。实验结果表明此算法可行,且性能不受查询范围长度的影响。
其他文献
传感技术是信息科学的基础,传感器技术是现代信息技术的重要支柱之一,几乎渗透到科学技术和国民经济的每个角落。传感器网络是由一定数量的传感器节点通过某种有线或无线协议
随着计算机软硬件、计算机图形学、计算机辅助设计、虚拟现实以及人工智能等技术的发展,融合了这些因素的计算机辅助人机工程正获得越来越广泛的关注与应用。 许多复杂高
随着网络技术的发展,信息服务被应用到现实世界中,面对周围环境的大量的信息服务,如何适时为用户提供合适的服务,从而提高用户对信息服务的满意度,成为当今热门的研究方向。为了达
Web服务是新形式的因特网软件,它统一使用因特网协议布置和调用,来自不同服务商的服务被整合以提供一个组合服务。随着Web服务技术日新月异的发展,服务提供者之间竞争的加剧,通常
随着计算机技术的发展,机器人系统的理论及应用研究已经成为人工智能研究的热点,这其中比较有代表性的就是移动机器人系统的研究。移动机器人的路径规划是移动机器人技术研究中
P2P即Peer to Peer,称为对等通信,是一种全新的互联网技术,它将传统的以服务器为中心的互联网应用模式提升为以用户为中心的对等模式。 P2P在文件交换,对等计算,协同工作,搜索服
随着世界各国在海洋开发方面展开日趋激烈的竞争,对具有自主导航能力的水下机器人的要求越来越高,需求也越来越大。机器人配备单一的传感器如声纳等现已无法满足高精度的自主导
随着当前IT技术、电子商务及互联网的快速发展和迅速普及,导致在各个应用领域的数据库中存储了大量的数据,这些数据集中包含了很多有用的知识,因此如何发现各种大型数据库中
机器人足球比赛是人工智能和机器人学研究的一个新的标准问题,它以多智能体系统(MAS)和分布式人工智能(DAI)为主要研究背景,其研究的主要目的就是通过提供一个标准的、易于评
程序切片是一种重要的程序分析理解方法,用于从源程序中抽取对程序中特定点上的特定变量有影响的语句和控制条件,组成新的程序(称作切片),然后通过分析切片来分析源程序的行