基于预散列和索引的MapReduce数据连接处理优化

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:yellue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现有MapReduce在大规模集群上进行海量数据连接处理操作时的效率问题,提出一种基于预散列和索引技术的MapReduce数据连接处理机制.该机制对Map结果数据先进行预散列处理,建立对应〈key,value〉对的索引信息,然后根据索引信息计算相同key值数据的连接及处理复杂度,最后基于连接复杂度为Reducer节点分配任务数据量,实现负载均衡.实验结果显示,本文提出的MapReduce数据连接处理机制能够有效实现Reducer节点负载均衡,提高数据连接处理操作的效率.
其他文献
随着在线社交网络的快速发展,用户信息和用户规模呈现爆炸性增长,如何从网络上获取有针对性的信息已非易事,为此各种推荐系统已先后涌现.为各类不同用户以自然的推荐方式向其推荐信息并获得较高的用户采纳度是一件富挑战性的工作,也是本文的主要研究内容.如何在特定专业性拓扑网络中寻找到自然的推荐方式以得到较好的用户采纳度,是本文将要解决的问题.基于此,本文采用对潜在角色和关系预测研究,以E-CARGO模型为理论
慢性阻塞性肺疾病(COPD) 是一种不完全可逆的气流受限,呈进行性发展,且可以预防和治疗的疾病,并与肺部对香烟烟雾等有害气体或有害颗粒的异常炎症应有关[1].目前,COPD 是全球
业务流程是组合服务的主要表现形式之一.跨组织多方协作流程往往包含多重粒度,难以基于任何单一粒度建模.Proclets方法将多粒度单体流程分解为一组交互协作的单粒度流程,以实
现有基于可能世界建模的Top-k算法难以适应大数据量和键值对(Key-Value)数据模型下的不确定性Top-k查询.研究首先建立了不确定性Key-Value数据模型;随后在已有U-TopK查询语义的
在Web服务选择中,候选服务的QoS(Quality of Service)优劣起着决定性的作用.如何为具体用户准确预测服务的Qo S值是最近的研究热点.以往的工作聚焦于使用单一值(即点值)来预测Web
采用传统的关联规则方法对关系型数据集进行数据挖掘时,通常以属性为粒度求解属性之间的相关性,未能直观地剖析属性内部的规律和相关性.以细化分析粒度和提高关联规则的fine精度为目标,通过把属性"打碎",再结合基于逻辑的OCAT方法,提出一套细粒度的关联规则数据挖掘方法,同时由于该方法得到的关联规则表达形式的特殊性,使得其能提高处理大规模数据集的运算效率.最后,以一个气象数据集为实例进行实验,对结果的准
闭半环是在半环上添加了传递闭包运算符而得到的代数结构.闭半环为计算机科学理论中多个看起来不相关的问题提供了统一的求解理论框架.有不少图算法问题可以通过对图的邻接矩
推荐有效且高质量的Web服务是Web服务技术应用的关键.由于服务所处的环境动态变化,现有推荐方法推荐的服务常存在不可用的情况. 文中提出了一种服务失效情境下高质量Web
依赖于正则表达式匹配的深度包检测技术因准确率高成为网络流分类广泛使用的技术.为了能在线性时间内对网络流进行快速分类,需采用时间高效的确定性有限自动机(DFA)匹配引擎,
针对无线传感器网络分簇路由算法中随机选举簇头容易偏离最佳值的问题,提出一种基于簇头期望的能量均衡路由优化算法(CHEEB).其核心思想是:在选举簇头时同时考虑分簇负载分布