基于自适应策略的Spark自动化检查点的研究与优化

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wangkaixin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于Hadoop MapReduce等大数据处理平台的处理性能一直在不断提升,使得大数据处理成为了IT业界内最受关注的领域。在这些大数据处理平台中,Spark框架从被提出来之后变得越来越流行。相对于传统的Hadoop MapReduce编程模型的key-value编程,Spark的编程模型中提供了更多对于集合操作的支持使得Spark编程本身更容易学习使用。由于Spark的是一个完全在内存中计算的框架,它相对于Hadoop MapReduce在性能上有极大的提升。当Spark任务发生失败或者RDD读取未中的时候,Spark会重新计算丢失RDD的依赖路径(lineage)上所有丢失RDD。一个非常长的依赖路径不仅会增加重新计算的代价,同时也会耗费更多的时间与空间代价。Spark中的检查点会切断RDD的依赖关系同时将数据存储到磁盘上,检查点频率的选择会极大的影响整个程序的性能。但是原生Spark检查点需要由应用程序开发人员来进行设置,检查点的设置过于频繁会使系统性能下降。或者当系统配置变更后原有应用程序上的检查点设置可能并不会很好的适应新的系统环境。本文在研究与分析Spark源代码并进行验证实验的基础上,发现了相应模块上的不足。针对发现的问题探索设计并实现三种在Spark上的自动化检查点策略来解决由长依赖路径带来的额外开销,同时使得检查点给性能本身带来的影响较小。这个自动化的检查点主要具有以下功能:1)根据RDD依赖路径关系自动选择正确的检查点数据进行保存。在Spark应用的一次任务过程中会产生非常多的RDD,在进行检查点数据保存时,挑选出依赖路径上关键RDD数据进行保存。2)选择合适的检查点执行时间。根据内存使用情况以及检查点执行耗时等影响因素来平衡选择检查点执行时机,在不造成过多额外时间开销的情况下提高应用程序模块的运行效率。3)自动清理已经过期的检查点数据。在新的检查点完成之后删除之前保存且并不需要的检查点数据。采用SSD来存储检查点数据以提高存储读写效率。在设计与实现自动化检查点之后,本文针对自动化检查点的实现进行了测试。在多次的迭代的应用场景下,基于内存使用率以及作业时间的自动化检查点策略在整体性能上优于其他设计方案,并且能自主调整检查点触发条件阈值,自动适应各种不同的任务输入。
其他文献
随着社会矛盾纠纷事件逐渐增多,调解员每日需要处理的事件也越来越多。目前事件类别需要调解员自行归纳总结,工作量大且时常出现分类错误的情况,需要一种简单、客观和高效的
丹东市生态旅游资源丰富,农业资源禀赋良好,在丹东发展休闲农业,不仅可以进一步挖掘资源优势,还能有效拓宽农业功能,延伸农业产业链,提高农民收入,推进农业结构从单一向多元
随着技术的发展,机器人已经广泛的应用到越来越多的领域。作为机器人的一个重要分支,机械臂在人类生产生活中扮演了重要的角色。其中,连续体机械臂因其自身的柔顺性、适应性
无线通信中的自动调制识别是频谱资源应用与管理的重要环节,也是该领域最热门的研究方向之一。传统的无线通信信号调制识别研究主要采用基于最大似然比判决理论的调制识别和
随着低温容性耦合等离子体研究的日渐成熟,容性耦合等离子体技术已被广泛的应用于纳米薄膜材料制备、半导体制造工艺、材料表面清洗及掺杂等领域。双频容性耦合气体放电因其
档案馆作为公共文化事业机构,拥有丰富的档案信息资源,充分挖掘档案资源的价值,满足社会各界的利用需求,是档案馆的职责所在。档案展览以独特的优势在资源开发利用和传播档案
当前档案工作领域面临着社会发展和公众需求变化导致的新技术应用水平和管理服务能力提升的双重压力。人工智能、大数据、云计算、物联网等新一代信息技术催生档案新技术应用
人脸识别技术作为生物特征识别技术之一,因其自然性、非接触性、唯一性和主动性等多种优势,获得了广大科研人员的关注。随着科学技术的快速发展,人脸识别技术也获得了不小的
生物支架作为组织工程的重要组成部分之一,由相互连接的孔隙网络结构组成,具有支持细胞定植、迁移、生长和分化等功能。随着3D打印技术兴起,快速成形技术被引入支架制备领域
工业物联网是物联网的重要组成部分,随着工业物联网的高速发展,越来越多的智能传感器等工业设备用于工业物联网。由于传感设备所处的环境及其通信信道的开放性较高,工业物联