Hadoop平台中一种Reduce负载均衡贪心算法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:js_netbit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MapReduce是目前广泛应用的并行计算框架,是Hadoop平台的重要组成部分。主要包括Map和Reduce函数,Map函数输出key-value键值对作为Reduce的输入。由于输入的动态性,不同主机上的Reduce处理的输入量存在不均衡性。如何解决Reduce的负载均衡是优化MapReduce的一个重要研究方向。对整体数据进行抽样,通过适量的样本分析数据,达到较小的代价获得可靠的key分布,提出贪心算法代替Hadoop平台默认的Hash算法来划分数据,实现Reduce负载均衡。提出的贪心算法主要思想
其他文献
材料腐蚀带来巨大的损失。对于大部分地区来说,大气腐蚀等级是未知的。如何准确地补偿缺失的大气腐蚀等级数据成为函待解决的问题。分别针对大气腐蚀等级的两个关键因素氯离子
为了解决当前云计算的实体信任评估领域所实施的方法策略无法满足云计算环境的动态模糊性的问题,设计了一种多属性信任关系的动态评估模型。该方法以遗传自适应学习算法为理
针对标题文本特征少、特征维度高和分布不均匀导致分类性能不佳的问题,提出了一种利用分类体系结构信息的双向特征选择算法,并在该算法的基础上实现标题分类。该方法以具有严
现有过滤型特征选择算法并未考虑非线性数据的内在结构,从而分类准确率远远低于封装型算法,对此提出一种基于再生核希尔伯特空间映射的高维数据特征选择算法。首先基于分支定界法建立搜索树,并对其进行搜索;然后基于再生核希尔伯特空间映射分析非线性数据的内部结构;最后根据数据集的内部结构选择最优的距离计算方法。对比仿真实验结果表明,该方法与封装型特征选择算法具有接近的分类准确率,同时在计算效率上具有明显的优势,
目前的动态文摘方法几乎都基于文档批处理机制,无法适应实际应用中表现为不稳定数据流的文档数据,因此无法满足实时更新摘要的需求。针对上述问题,提出了一种基于K近邻句子图
针对目前物联网和云计算技术结合后,物联网RFID产生的小型数据致使云计算中MapReduce算法产生运算瓶颈问题进行了研究。运用PML和EPC编码技术保证了数据存储的完整性,采用快速
部分覆盖是粒计算理论框架下的第二种粒计算模型,全覆盖粒计算是部分覆盖的一种特例。为实现全覆盖粒计算模型中粒的计算,探究了全覆盖粒计算模型中所提逼近算子的公理化系统,提出了粒的中心、全覆盖粒度熵及全覆盖粒族熵的概念,探讨了基本粒和全覆盖粒重要性度量的方法,并提出了相应的约简与核的判定定理。基于所提定义、定理设计了全覆盖粒的约简算法和全覆盖粒族的约简算法,并从理论上分析了两种算法的复杂度。最后以客户根