容器化数据科学工作流系统的存储与传输优化研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:stcheer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据科学的不断发展,数据分析科研人员需要对大量的数据进行分析以找出数据的规律性,进而对特定问题提出解决方案。在数据科学工作流中,数据分析科研人员通常需要经过数据准备、环境准备、数据分析、结果分析等必要环节。本文主要解决目前的数据科学工作流存在的三个问题:第一,许多科研人员都是共用集群中的物理资源,这给维护每个科研人员私有开发环境的增加了很多难度,切换环境或者安装新的软件也会耗费开发者大量的时间和精力;第二,多位科研人员在共用集群资源时,往往会产生大量的冗余数据,给集群带来较大的存储压力;第三,使用传统的数据传输方法,传输单个数据文件的速度与其分发到集群中多个节点的速度往往比较缓慢,当发生网络故障导致数据文件传输中断时,通常需要重新传输,这种传输方法的可靠性较低。为解决上述问题,本文设计并实现了一个容器化的分布式数据科学工作流系统,避免科研人员在环境准备环节耗费大量时间。同时,针对系统中数据存储与数据传输的问题提出了相应的优化方法,减少了冗余数据的产生,减轻了集群的存储压力,提高了传输单个文件与其分发至集群多个节点中的速度和可靠性。具体工作和贡献如下:1.提出了容器化数据科学工作流系统中的数据存储优化策略与方法在容器化数据科学工作流的场景下,优化数据存储方法,以减少冗余数据的产生并减轻集群的存储压力。具体来说,本文基于OverlayFS创建动态merge层,将用户需要的文件夹合并后以文件卷的形式挂载到容器中,利用OverlayFS写时复制的特点,在多名用户使用同一份数据集进行数据分析时,为每位用户创建独立的写空间,减少了冗余数据的产生。此外,优化低频文件的存储方式,使用纠删码技术来存储低频访问的文件,在保证高可靠性的前提下,牺牲高效的恢复性来换取更小的存储占用,减轻了集群的存储压力。2.提出了容器化数据科学工作流系统中的数据传输优化策略与方法在容器化数据科学工作流的场景下,优化数据传输的传输速度与可靠性。在数据传输速度方面,本文使用多线程分片传输的方法,提高了传输单个文件的速度;同时在用户想要使用多种不同的算法分析同一份数据集时,系统会快速寻找出集群中相对空闲的机器,使用基于动态规划优化的传输策略,将用户所需要的数据文件快速传输到集群中指定的节点上,达到快速启动多个任务的目的,提高了分发文件的效率。在数据传输可靠性方面,本文使用了分片传输方法,当因网络故障或者其它问题导致文件传输中断时,使得数据文件可以从传输中断的位置继续传输,提高了数据传输的可靠性。3.设计并实现了容器化的分布式数据科学工作流系统最后,本文围绕“数据环境准备-算法准备-数据分析”三大环节,按照数据科学工作流的思想,构建了支持数据管理、自动搭建环境、迭代分析数据的分布式数据科学工作流系统。通过对系统的功能测试以及优化测试,验证了上述数据存储优化方法与数据传输优化方法的可行性,并验证了容器化的分布式数据科学工作流系统的有效性。
其他文献
《陈情表》是中国古代散文名篇,以其感人至深的语言、谦卑谨慎的态度、层层递进的说理技巧,历来为散文大家们所称道。该文自2000年入选人教版高中语文课本之后,又相继被苏教版、沪教版等各大高中教材收录,向来都是学考和高考的重点篇目。而在该文的实际教学中,学生却对"前太守臣奎察臣孝廉,后刺史臣荣举臣秀才"一句中太守和刺史两个官职后的"臣"字产生了疑惑,不知道作何解。课本
期刊
为促进学生语文学科核心素养的发展,整本书阅读被纳入正式的语文课程体系。但因整本书阅读教学理论和实践均不够成熟,整本书阅读教学在实施过程中面临一系列问题。有关整本书阅读教学的研究虽然已有不少,但专门针对小学高学段的研究成果较少。鉴于此,本文将整本书阅读教学作为研究对象,以小学高年级为切入点,尝试探究小学高学段整本书阅读教学的策略。开展整本书阅读教学的研究对整本书阅读理论体系和实践两大层面都有重要意义
课后练习题作为练习系统的核心部分,其科学的编制与合理地使用可以提高教学质量,进一步促进课程目标的实现。不同文体的课后练习题,会有不同的编制特点与使用策略。文章的研究思路及核心观点如下:第一章基于新课程改革所倡导的语文素养课程理念、新课标中的新增理念以及古诗词文体独特性,提出“部编本”初中语文古诗词课后练习题使用的理论依据。提出课后练习题的使用应以提升义务教育阶段语文素养为目标。义务教育阶段语文素养
随着智能手机和5G网络的普及,快手,抖音,爱奇艺等视频应用源源不断进入大众生活。用户自制视频投稿量快速增长,盗版搬运视频层出不穷。一些用户通过复制下载等成本极其低廉的手段,盗窃他人原创视频投稿到其他网站获取利益,这种行为对原创作者的利益造成严重的损害。原创视频往往需要付出大量的人力物力,却被他人轻易夺取了劳动成果,不利于行业的发展和版权的保护。出于版权保护以及规避风险的考虑,视频网站和APP都需要
国产分布式数据库在兼容国产CPU平台、操作系统的同时拥有传统数据库不具备的扩展需求和多数据模型的处理能力等特性。本文主要介绍了分布式数据库,分析了烟草行业的数据库应用需求,结合分布式数据库测试实践,总结了实践过程中的一些评测方法和思考。
在航天、汽车、航空等领域,安全关键系统有很强的实时需求,因此验证数据流的端到端延迟尤其重要。端到端延迟的变化是受到处理时间、传感器和执行器采样时间、调度算法等因素的影响。端到端延迟是指要处理来自传感器的新数据值并将其输出到执行器所花费的时间。端到端的流分析是检查端到端数据流,其延迟值是否大于流元素的每个延迟之和。对于端到端延迟的下限(最小)和上限(最大)都进行了此验证。Safety_SysML是我
副词“都”是汉语中使用频率很高的一个词,对外汉语教材在编排时也注意增加其复现率,但是汉语学习者在使用“都”时依然会出现较多偏误,这表明对外汉语中副词“都”的教材编排有进一步研究的必要。文章采用对比分析、归纳总结以及定量和定性相结合的研究方法,分别从义项设置及语法点呈现、语法点位置编排、练习设计以及课文复现四方面对《汉语教程》《发展汉语》以及《新实用汉语课本》中副词“都”的编排进行考察。在副词“都”
阐述计算机和网络信息安全的风险,包括黑客的攻击、软件的漏洞、网站的风险、操作系统病毒,探讨计算机网络信息安全的防护对策,安装防火墙、软件安全测试。
软PLC(Soft PLC)是一种基于通用操作系统和PC的控制系统,具有开放性高、指令集丰富、易于维护等优点,随着IEC61131-3标准的制定和普及,软PLC技术也得到了飞速的发展。IEC61131-3是国际电工委员会提出的统一可编程序控制器标准,该标准基于传统PLC体系结构,将现代软件工程编程思想应用于传统PLC编程语言,提出5种标准编程语言,分别为图形化编程语言LD、FBD、SFC和文本编程
泛在电力物联网是实现电网智能化的必经之路,对实现电网能源转换、电力生产优化升级有着至关重要的作用。电力从产出到使用,经历了从输变电到配电,再从配电到营销等关键环节,而配电网在当中起了关键的衔接作用。配电网的飞速发展和设备陆续智能化,促使了配电网数据的快速增长。配电网大数据是泛在电力物联网实现过程的产物,它的研究和分析关系着电网的发展脉络。本文主要围绕配电网大数据的规范化集成、高效存储和查询以及并行