一种基于虚拟处理区间划分的负载均衡等值连接算法

来源 :现代计算机(专业版) | 被引量 : 1次 | 上传用户:QINDB
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据分析和处理是大数据处理中最重要的任务,而等值连接又是数据分析中最常用、代价最高的操作之一。在实际的等值连接操作中,存在一个重要的问题就是数据倾斜:分配到每个任务的数据量不均衡,造成部分任务的完成时间更长,致使连接性能受到严重影响。为解决这个问题,提出一种负载均衡的等值连接算法(VPRP),通过采样估计数据集在连接属性上的数据分布情况,并采用虚拟分区和交叉映射的方法,在倾斜严重的数据周围划分出更多的区间,以增加数据分配的均衡性,同时消减连接噪声对整体性能的消极影响,最后实验验证该算法的有效性。
其他文献
心力衰竭(心衰)是各种心脏病的终末阶段,老年心力衰竭是老年人主要死因之一。本文对2005年2月至2006年10月我科治疗的132例老年心衰患者进行临床分析,以探讨相应的治疗对策。
引进脱毒甘薯"龙薯9号",两年大面积试验试种,总结出在德化县高产栽培的配套栽培措施。
传统的社区发现方法多是基于同构网络和拓扑结构,为此,提出基于异构信息网络信息维统计量的社区发现算法,该算法通过对异构信息网络进行信息维上卷后构建概率模型,采用引入模
高产稳产抗病玉米杂交种──鲁单50号马龙波(山东省农业科学院玉米研究所济南250100)鲁单50号是山东省农业科学院玉米研究所用鲁原92作母本、齐319作父本育成的中熟玉米杂交种。该杂交种具有高
2009年10月24-25日,“回顾与展望:新中国成立60年来伦理学研究与道德建设学术研讨会”在芜湖召开。这次会议是由中国人民大学伦理学与道德建设研究中心、安徽师范大学马克思主
近几年来,云计算技术飞速发展,对IT界以及人们的日常产生活带来越来越大的影响。Open Stack是当今最流行的开源Iaa S云平台,研究Open Stack的虚拟机初始放置问题,指出Open Stack在虚拟机放置方面的不足,并且提出距离交叉装填算法作为Open Stack的虚拟机初始放置算法。实验结果表明,该算法比Open Stack默认的虚拟机放置算法性能更好,提高物理机资源利用率。
早晨8:00-10:00取母猪新鲜尿液15 ml,将其放入透明玻璃瓶内,往装有尿液的玻璃瓶里滴入几滴醋或少许碘酒,然后将玻璃瓶置于小火上,逐渐加温直至尿液沸腾,观察尿液颜色来判断母猪
最近几年很多基于口令的三因素密钥交换被提了出来。2010年Chang等人提出一种基于口令的三方密钥交换协议,并对其进行证明,宣称其是一种安全高效的密钥交换协议。对Chang等人
研究词深度特征池化法的句子级情感分类特征表示,在进行词向量学习时,首先利用中科院分词器对语料进行分词,通过word2vec中的CBOW模型计算语料中词的深度特征词向量;在情感分
蚁群算法已经成为解决各种困难问题的常用方法,在很多工程化系统中得到成功应用,但是其对具体问题的依赖性强、泛化求解能力弱等特点严重制约其工程化推广。分析几种常用的蚁群算法计算架构,通过对蚁群寻优过程的分段概念化抽象,建立编码、求解和解码的三段式结构,从群体认知的角度,通过信息素更新机制建立蚁群集中控制模型,实现一种通用的智能蚁群规划器架构,并通过实例分析,验证其有效性。