基于Hadoop的在线聚集查询处理方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:jason23431
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从进入信息时代以来,信息呈爆发式增长,随之而来的是数据量的剧增。处理海量数据,从海量数据中获得有效信息,成为了当务之急。很长一段时间以来,存储和处理数据的主要工具是关系数据库,而关系数据库中的聚集查询是进行统计分析的重要操作。随着需要处理的数据量急剧增长,传统关系数据库进行聚集查询的批处理模式使得用户进行聚集查询时需经过长时间的等待之后才能得到最终的准确结果。在线聚集查询可以在查询处理的过程中不断获取数据,给出当前近似结果,直到处理完全部数据才能得到最终的精确结果,当达到用户所需的精确度时,用户可以终止查询,以节约用户时间和系统资源。随着新的数据处理平台Hadoop的发展,处理海量数据变得更高效,但是数据是“无限”的,而计算和存储资源却是有限的。虽然目前很难从根本上解决这一问题,但是对于特定应用,仍然可以提出一些特定的解决方案。本文结合Hadoop处理海量数据的优势和在线聚集查询处理方式,提出了基于Hadoop的迭代抽样近似聚集查询处理方法,通过两次迭代抽样得到满足用户所需精确度的近似聚集查询处理结果。根据第一次抽样得到的样本数据以及用户给定的精确度,估计出第二次迭代所需的样本大小,通过两次得到的样本数据,返回近似聚集查询结果给用户。为了避免数据偏差的影响,特别是对于分组数据量相差悬殊或低选择度的Group by聚集查询,本文提出了在Hadoop环境下的“分层”抽样方法,从而保证基于统计的近似聚集结果有意义。最后在实验中,通过各种抽样方法对聚集查询结果的影响进行了对比验证,实验表明本文提出的基于Hadoop的在线聚集查询方法既考虑时间效率,让用户在处理时间和结果精确度之间做出权衡,同时也考虑了集群的计算资源和存储资源的利用率。并与最新的基于Hadoop的在线聚集查询处理方法进行对比实验分析,结果表明本文的迭代抽样聚集查询处理方法更高效。
其他文献
Android操作系统成为市场占有率最高的终端系统,智能终端的功能也与PC越来越接近,但由于普通用户安全意识的缺失和市场监管的落后,基于Android系统的移动终端的安全检测技术
水产及畜牧业面临着各类病害频繁发生的难题,抗生素是防治养殖病害的传统方法,但抗生素会导致生物安全性与环境污染问题。抗菌肽由于其独特的抗菌机理,使细菌不易对其产生耐
当户外环境存在霾、雾或其他大颗粒微粒时,拍摄图像质量下降,图像呈现灰白色,能见度降低、噪声较高、对比度与色彩剧烈衰减、景物轮廓模糊,图像特征提取困难,最终导致图像失
谱聚类算法以谱图理论为基础,可以作为一种图论的分割方法,由于其强大的数学理论基础和广泛适用性,是目前国际上模式识别等领域的研究热点之一。谱聚类算法可以将数据集从原
虽然经过几十年的研究与发展,人脸识别问题仍然是计算机视觉中研究的热点和难点。近年来,人脸识别系统在公安系统、军事、医学等领域得到了广泛的应用,超低分辨率下的人脸图
三角形脉冲是一种具有特殊时域波形的光脉冲,其前后沿具有变化率恒定并且符号相反的特殊时域形状。脉冲在光纤中传输时,由自相位调制(self-phase modulation,SPM)和交叉相位
态势察觉作为网络安全态势感知的基础,主要包括异常行为检测和已知攻击检测,从而实时察觉网络中的安全威胁及其态势等。然而,海量网络安全数据的高维性、冗余特征以及不相关
近年来,互联网技术和信息技术都以惊人的速度不断向前发展,数字图像通信技术也得到了长足的进步,逐步成为了信息通信的常用手段之一,同时数字图像信息也被广泛地应用到社会的
随着计算机产业的蓬勃发展以及互联网技术的迅速提升,网络和硬盘中的数据量正呈现出井喷式的增长,这使得信息的收集、存储和交流比以往都更加的方便与快捷。与此同时,鉴于电
蓝光LED芯片激发黄粉是目前实现白光LED的主要方式。白光LED显色指数偏低、色温较高及发光性能不稳定等缺陷限制了其发展与应用,引入红色荧光粉对调整白光LED的显色指数提高及