基于MapReduce的海量Skyline计算研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：xiegenda

【摘要】

：

近年来,随着互联网应用的迅速发展和云计算技术的广泛应用,数据存储量呈现爆炸式增长。如何在大规模数据集中找到人们感兴趣的数据,帮助人们做出有效的决断,是一个亟待解决的

【作者】

：

王淑艳

【机构】

：

大连理工大学

【出处】

：

大连理工大学

【发表日期】

：

2014年期

【关键词】

：

Skyline计算大数据 MapReduce 基于超平面投影的划分

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着互联网应用的迅速发展和云计算技术的广泛应用,数据存储量呈现爆炸式增长。如何在大规模数据集中找到人们感兴趣的数据,帮助人们做出有效的决断,是一个亟待解决的问题。Skyline计算用于解决多目标决策问题。从已有的研究内容来看,Skyline计算可分为集中式处理和分布式处理。集中式处理的研究相对较为成熟,包括BNL (block nested loop)、D&C (divide and conquer)和SFS (sort-filter-skyline)等多种算法。由于大数据的发展,分布式处理尤为重要。MapReduce模型由Google公司提出,该模型具有高容错性和良好的扩展性,适用于数据密集型应用处理。因此,将Skyline计算置于MapReduce模型下运行是一个很好的选择。Skyline计算在MapReduce模型上运行,需要考虑的问题是如何对数据集进行划分。目前已知的划分方法有随机划分、网格划分和基于角度的划分。随机划分简单,但是运行不稳定。网格划分仅适用于低维度数据集。基于角度的划分先将点的坐标投影到超球面上,然后根据超球面坐标对数据集进行划分。使用这种划分在求局部结果集时可以淘汰更多数据,但该划分前的坐标转换较复杂、费时。本文采用基于超平面投影的划分对数据集进行划分。该划分首先将点的坐标投影到超平面上,然后根据超平面坐标对数据集进行划分。这种划分方法继承了基于角度划分的优点,即划分后求出的局部结果集较小,同时弥补了基于角度划分的不足,即该划分前的坐标转换简单、省时。本文提出基于该划分下的Skyline计算算法MR-HPP (MapReduce with hyperplane-projections-based partition),然后从该算法的合并过滤阶段及MapReduce的Shuffle阶段入手,对计算过程进行了优化。为了验证MR-HPP算法的有效性,我们在Hadoop平台下对以上几种划分策略下的算法进行了大量的对比实验,实验结果表明,本文提出的MR-HPP算法具有良好的扩展性、高效性和稳定性。

其他文献

多维敏感属性相关联的隐私保护数据发布研究

在开放的互联网时代,与个人信息相关的数据-微数据在网络上以指数级形式急剧增长,这些数据共享和发布可被用于进行海量数据分析,随着数据挖掘技术的日益发展及广泛应用,这些

学位

微数据发布K-匿名多维敏感属性关联规则

多簇VLIW DSP向量化相关编译技术研究

BWDSP是一款高性能数字信号处理器,采用超长指令字(Vety LongInstruction Word, VILW)和单指令多数据流(Single Instruction Multiple Data, SIMD)体系结构。较通用处理器而

学位

超长指令字单指令多数据流编译优化技术向量化特殊指令合成

MicroRNA预测分类及其特性研究

MicroRNA (miRNA)是一种非编码RNA,长度约为22个核苷酸,研究证实miRNA在基因表达中其重要的调控作用。对miRNA进行研究有助于人们了解基因功能,疾病关系以及生物进化规律。近

学位

miRNA预测miRNA家族分类不平衡分类

面向非易失存储器PCM的节能技术研究

随着计算机技术的发展,内存已经成为计算机能耗降低和性能提升的主要瓶颈。下一代内存必然有容量密度高,能耗低,性能好的特点。PCM有良好的伸缩性,一个单元可以存储多个比特

学位

非易失性页面迁移混合架构节能

无线传感器网络源节点位置隐私保护研究

随着科技的发展,信息与通信技术已逐渐深入到人类生产生活的各个方面,对物理世界的信息进行获取、传输、处理和利用已成为信息与通信技术服务于人类的重要目标,一种新型的无

学位

无线传感器网络源节点位置隐私保护身份隐私匿名通信定向随机路由多重过滤

基于CT图像的胆囊三角三维分割系统研究与实现

解剖学上将胆囊管、肝总管及肝脏脏面三者构成的三角形区域称为胆囊三角(又叫Calot三角)。胆囊三角是临床解剖上的主要标志在进行胆囊切除手术时要在该三角内寻找胆囊动脉并

学位

三维分割自动化定位胆囊三角解剖学水平集方法多尺度空间理论管状结构VTK

NDN中基于树比特位图的高效路由查找技术

近年来，互联网飞速发展，逐步深入日常生活的方方面面。传统TCP/IP网络以位置为驱动的通信模型越来越不适应当下或未来互联网以信息和服务为驱动的需求。针对传统网络在移动性、

学位

命名数据网络路由表查找树比特位图数据名分层编码技术更新算法

煤矿安全生产监控网络平台的研究与应用

煤炭的开采处于高危环境下工作，生产环节多，系统复杂，机电设备种类繁杂，并且协同工作关系复杂，必须做到统一管理和调度。因此，对井上、下不同作业场所的生产现状和设备运行数据的采

学位

TCP/IP煤矿安全监测无线传感器网络网关嵌入式

基于混沌的快速图像加密算法

随着计算机网络通信技术的迅速普及,在日常生活中,数字图像的使用变得越来越频繁,保证其安全已经得到了大家广泛的关注。由于图像具有信息量大、相邻像素的关联性强的特点,传

学位

混沌动态S-盒同时置乱和混淆行列交换自混淆

温室监控系统中多传感器数据融合技术的研究及应用

近年来温室监控系统发展迅速,由于温室监控区域较大,因此需要大量的传感器节点构成大型监控网络,通过各种传感器采集温度、湿度等相关信息,实现自动监控。数据融合技术是解决

学位

多传感器数据融合温室环境监控无线传感器网络

基于MapReduce的海量Skyline计算研究

与本文相关的学术论文