基于内存与文件共享机制的Spark I/O性能优化

来源 :计算机工程 | 被引量 : 0次 | 上传用户:ycl12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过对Spark采用的弹性分布式数据集及任务调度等关键技术进行分析,发现数据处理I/O时间是影响Spark计算性能的主要瓶颈。为此,研究Spark合并文件运行模式,该模式能够减少缓存文件数量,提高Spark的I/O效率,但存在内存开销较高的缺点。在此基础上,给出改进的Spark Shuffle过程,即通过设计一种使每个Mapper只生成一个缓存文件的运行模式,并且每个Mapper共享同一个内存缓冲区,从而提高I/O效率和减少内存开销。仿真结果表明,与Spark默认模式相比,该运行模式宽依赖计算过程的I/O
其他文献
公路运输是我国应用较为广泛的运输形式。软土地基作为公路建设重要的组成部分,在其上修筑的公路路堤容易发生失稳和不均匀沉降,进而导致行车安全甚至交通事故。为克服软土地
1日 市教育局通报第二期网上“智慧大冲浪”竞赛活动结果,300余所学校2万余师生参赛,访问总量达18万人次,10所学校获最佳组织奖,31人获一,二,三等奖。
重农固本,是安民之基,我国各届政府都非常重视"三农"工作。在2016年中央农村工作会议上,党和政府又强调了要把农业农村工作放到重中之重位置,发掘农业内部潜力,促进农村经济
以往的高中政治复习课,常常是老师把知识点条理式的进行讲解,象“炒现饭”似的把知识灌输给学生,结果是老师讲得口干舌燥,学生听得枯燥无味,效果并不明显。经过十多年的课堂教学,我
在建筑信息建模的精确碰撞检测应用中,数据量日趋庞大,但串行执行无法随处理机主频的增加而持续加速。针对该问题,构建面向多核及众核处理机的数据并行计算模型,基于此提出一
现有对视频网站电视剧流行度预测的研究中考虑因素较少,并且极少能在电视剧首播前进行预测,这会使视频网站在做出版权购买、广告投放等决策时考虑不全面并且出现预测时间滞后
目的:观察采用集束化护理措施在预防血液透析导管相关血流感染中的临床效果。方法:选取笔者所在医院2016年1月-2017年1月留置血液透析导管患者96例,随机分为两组,即对照组和
期刊
为了保证学生充足的睡眠时间,北京石景山区率先提出将推迟小学生的上学时间,到校时间从现在的7时30分延时到8时,现在从7时30分开始的早自习将取消。近日,石景山区教委主任王兰芳