基于MapReduce的数据聚集运算算法

来源 :中国科技论文在线 | 被引量 : 0次 | 上传用户:hxs038
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决数据仓库中海量数据的处理效率问题,可以采用数据聚集预计算的方法,但是针对海量级别数据的聚集运算非常耗费计算资源,需要巨大的计算能力和存储能力,因此提出了一组基于MapReduce的面向海量数据的数据聚集运算算法,主要包括数据的选择、投影以及等值连接等,并在此基础上,实现了计数、求和和均值等聚集运算,形成了比较完整的面向海量数据的聚集运算算法。实验结果表明,该算法充分利用了集群系统的计算能力和存储能力,极大地提高了海量数据的聚集运算效率和基于聚集运算结果上的数据查询效率。
其他文献
针对数控机床故障诊断的理论知识、经典实例和人员经验知识难以有效协同运用,使得多种故障诊断方法难以融合的问题,提出一种融合基于本体的故障诊断方法(OBFD)、基于案例推理
2014年是转折之年。从全球视角观察,2014年全球增长从发展中经济体转到发达经济体,2013年美国经济率先复苏,美联储缩减量化宽松改变了全球资金的流向,发达经济体走出2008年全
针对经验模态分解(EMD)的固有模态函数(IMF)选择问题,提出了一种基于能量阀值的自适应筛选方法。对筛选出的IMF分量进行信号重构后,提取重构信号时变自回归模型的时变参数特
针对EAST装置大型低温杜瓦中内外冷屏系统存在的泄漏及对外真空室真空度的影响,采用氦质谱负压真空、正压真空及吸枪法相结合的方法,确定了多处泄漏点并分析了泄漏原因,通过
通过分析比较美国及我国研究生奖助学金资助现状,结合当前十七所高校试点研究生培养机制改革的情况,初步探讨我国研究生培养机制改革、特别是奖助机制改革的基本规律和特点,
基于机器学习的垃圾邮件过滤技术是当前垃圾邮件过滤的主流方法。机器学习模型主要分为两类:以朴素贝叶斯(NB)为代表的生成模型和以逻辑回归模型(LR)、支持向量机模型(SVM)为
针对现有的手写数字识别技术不适合大规模应用的问题,提出了一种基于AP和BP神经网络的快速手写数字识别算法。首先对预处理后的样本通过AP算法(affinity propagation)聚类消
针对高含硫气田超深井油层套管的腐蚀问题,采用四点弯曲法和动态腐蚀失重法,利用自制的高温高压釜对SM-C110、TP110TS和TP110SS三种高强度套管钢在模拟工况下的腐蚀行为进行
针对C-V法的水平集图像分割法缺少局部控制能力等问题,提出了基于物体边界梯度的指数级加速因子模型,通过使用局部图像信息,该模型可以在较少的迭代次数内分割灰度不均匀图像
2009年春节刚过,网吧迎来了新一轮的更新采购高峰,恰是硬件市场平台更新换代之际,而且又处在全球金融危机的关口,几方面原因使硬件市场价格全面走至最低位。由此,各地网吧团