基于Spark的缓存和容错优化策略研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:wgz204
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网用户的数据量不断增加和实时性需求的不断增长,基于分布式内存计算的数据处理框架已成为公司数据业务和科学研究的首选工具。由于计算系统的可用内存不断增加,内存数据处理技术能够使用较大容量的内存空间。但是,相对较高的RAM价格会导致内存资源的限制。因此,一个重要的问题是预测何时将哪些数据提取到高速缓存中以减少计算等待时间,并且有效预测数据的访问模式来进行高速缓存管理。本文研究基于目前应用最广泛的Spark内存计算框架。首先,本文设计并实现了一种资源感知的缓存管理方法,改进了当前利用数据依赖应用语义的已有方法,利用组合优化理论和运行时集群的资源使用情况,选择当前最优的缓存替换策略,从而提高内存资源的利用率并减少应用程序的运行时间。其次,本文针对Spark提出快速恢复丢失数据的容错保障机制,通过数据单元特征建立了全面的恢复成本模型,再通过检查点设置策略提高数据任务的恢复效率。最后,通过在Spark源码基础上进行非侵入式的二次开发,动态捕捉应用执行过程中的资源使用情况。同时提供一个可插拔的缓存管理模块,将本文提出的资源感知缓存管理方法接入当前Spark部署,并且开发了一个存储错误生成器,用来测试本课题提出的容错机制恢复计算进程的效率。通过对比实验及对结果分析,证明本课题提出的缓存管理和容错优化策略能够提高大数据分析框架的计算效率。
其他文献
生态环境损害赔偿诉讼是赔偿权利人针对赔偿义务人因污染环境、破坏生态的行为造成生态环境类公共利益的损害而提起的诉讼。从设立目的角度分析,此类诉讼的本质应当是一种以保护环境利益为目的的诉讼。从实体法的角度出发,其与环境民事公益诉讼的基础应当相同,但不应当适用普通环境侵权诉讼的实体法;从程序法的角度而言,环境民事公益诉讼的大部分程序规则契合于此类诉讼,但其又有自己的独特价值。因此,生态环境损害赔偿诉讼是
当今社会经济发展突飞猛进,人们的物质生活水品日益提高,科技的进步也是人们的日常生活更加便利,但于此同时,科技的进步也给人类带来了不少困扰,环境污染问题就是现在面临的一个主要问题。土地沙漠化、森林急剧减少、大气污染、资源枯竭等,这些问题不仅影响着目前人类的生存和发展,同时也会对子孙后代的生活产生非常严重的影响。减少环境污染,改善生态环境,创造绿色生活将是担负在我们身上的任务,而环境公益诉讼制度则能很
学校道德教育对国家发展和学生个体发展都具有重要意义。道德教育最终的落脚点在学生身上,学生的需求决定了道德教育的发展方向。《道德与法治》课程标准(2016版)指出:道德存在于儿童的生活中,德育离不开儿童的生活;教与学要植根于儿童的生活。所以,要努力实现道德教育生活化,助力儿童健康成长。然而目前学校在道德教育生活化实施的过程中遇到了一些问题,如道德教育内容片面化、道德教育过程形式化等。这些问题严重阻碍
随着信息技术的飞速发展,计算机和互联网走进千家万户,信息产品如雨后春笋般出现,现代人必备的电子产品也逐渐成为了当下学生借助学习的一种工具。利用网络平台进行教学的模式不断被推广,学生自主学习,提高了学习兴趣与效率,教师通过平台对学生进行管理,和学生“面对面”进行交流互动,提升了课堂学生的参与度。现代化教学手段已经成为教育者们的必备技能,它以其独特的功能在教学中发挥着重要的作用,只有先进的教学手段才能
随着临床医学中微创和无创手术的发展,医用内窥镜成为术前检查和治疗最重要的辅助器械和诊治手段之一。为实现活体器官、组织内部细胞级清晰成像这一重要需求,医用内窥镜不断向高分辨率、光纤化以及探头微型化方向发展。当前,医用光纤型内窥镜大多使用由许多单模光纤组成的光纤束传输图像,可分辨像素总数无法超过光纤总数。单根多模光纤成像技术因其可以在一个光纤纤芯半径内同时传输数千种模式,克服了上述单模光纤束成像技术在
随着城市化进程的不断推进,管廊的建设势在必行。管廊作为保证城市正常运转的基础设施,一旦发生火灾将造成十分严重的影响。因此,探究综合管廊火灾行为,摸清火灾情况下管廊内的温度分布和烟气蔓延过程,为城市地下综合管廊火灾的早期预警和快速灭火提供理论支持,具有十分重要的意义。本文使用小尺寸圆形截面管廊作为实验平台,以研究管廊纵向温度衰减、顶棚最大烟气温度和烟气沉降过程为目的,确定了实验方案。实验过程中使用重
随着互联网的高速发展,网络安全逐渐成为公众关注的话题。网络安全也关系到公众的个人隐私和信息安全,因此网络安全相关的文章和资讯是极有价值的。网络安全属于专业性极强的领域,相关的网络资源主要分布在专业网站、论坛以及一些包含各类信息的资讯网站的科技版块,其在网络中的分布较为杂乱,公众无法及时准确地了解近期的网络安全话题。本文针对网络安全领域设计并实现了一个分布式的互联网爬取系统,能够高效地从互联网中爬取
党的十九大报告中明确指出,脱贫攻坚进入决胜阶段,“到2020年我国现行标准下农村贫困人口实现脱贫,贫困县全部摘帽。”黑龙江省S县认真开展精准扶贫工作,已经取得了一定的成
离群检测作为数据挖掘的重要研究内容之一,被广泛应用于信用卡欺诈交易、故障检测和医疗诊断等众多领域。为了有效检测高维数据中的离群数据,研究学者们提出了基于子空间的离群检测算法,其中隔离森林(IForest)和基于直方图的离群检测(HBOS)作为两种典型的子空间算法,在生产生活中得到广泛应用,但仍然存在着准确率不高、稳定性较差和效率较低等缺陷。本文从离群特征子空间采样的角度出发,对上述两种算法存在的问
随着我国高含水老油田的深入挖潜,存在剩余油分布零散、油层之间以及油层内部和平面的矛盾日益突出,无效循环严重,环保压力日益突出等问题。对此各大油田目前发展了以精细分层注水为核心的第三代水驱精细挖潜配套工艺技术,但在层段细分到7段以上,层段间压差会变大,层间干扰严重,测调难度和工作量成倍增长。机械式偏心恒流配水堵塞器可使其注水量不随注水压力、地层压力以及本井其它层段注水状况变化而变化,可在一定程度减少