【摘 要】
:
在大数据分析应用中,基于表模型的结构化大数据分析处理,仍然是目前众多行业最基本的需求。DataFrame是一种在编程语言环境中易于使用的表数据编程模型,它对数据分析统计过程有良好的抽象,因而得到了广泛的关注和使用。目前出现了 Pandas和Spark DataFrame等编程框架,但在编程处理能力上还存在诸多不足。为此,本文从编程模型和框架、算子并行化、性能优化、跨平台调度与计算四个层面,研究了
论文部分内容阅读
在大数据分析应用中,基于表模型的结构化大数据分析处理,仍然是目前众多行业最基本的需求。DataFrame是一种在编程语言环境中易于使用的表数据编程模型,它对数据分析统计过程有良好的抽象,因而得到了广泛的关注和使用。目前出现了 Pandas和Spark DataFrame等编程框架,但在编程处理能力上还存在诸多不足。为此,本文从编程模型和框架、算子并行化、性能优化、跨平台调度与计算四个层面,研究了 DataFrame大数据编程模型与框架,并设计实现了一个跨平台统一 DataFrame大数据编程系统。本文的主要工作与贡献点包括:(1)研究提出了跨平台统一DataFrame大数据编程模型和框架,建立了一种平台无关的DateFrame高层抽象,为上层用户提供良好的易用性和跨平台特性。(2)研究设计了基于Spark平台的DataFrame框架,在此基础上研究提出了轻量级全局索引及其构建方法,并进一步研究提出了 DataFrame核心算子并行化构建方法。(3)基于Spark平台研究实现了大规模DataFrame性能优化方法,包括轻量级全局索引构建的优化方法、基于辅助索引的标签切片查询和更新优化方法、以及基于局部索引构建实现了算子执行性能的优化。(4)针对跨平台DataFrame环境下不同的DataFrame操作与数据规模,研究提出了一种执行时间评估模型,综合考虑执行时间和平台切换数据传输时间开销,进而实现跨平台DataFrame自动优化调度与执行。(5)在上述关键技术的研究基础上,设计实现了跨平台统一 DataFrame原型系统Octopus-DataFrame,该系统提供了完整的DataFrame编程计算接口,底层集成了多个现有的主流平台,并可以根据不同的数据规模和操作,实现自动的平台选择和优化调度。实验结果表明,所研究提出的技术方法和系统具有显著的性能优化效果。
其他文献
癌症作为目前世界上发病率和死亡率最高的疾病之一,严重威胁着人类的生命和健康。目前,临床上关于癌症的治疗手段主要包括手术治疗、化疗和放疗。其中,化疗和放疗由于不具有肿瘤特异性,在杀死肿瘤细胞的同时也会对正常组织和细胞造成严重伤害,所以这两种治疗方法往往便随着严重的毒副作用,严重制约了癌症治疗的有效性和成功性。肿瘤靶向治疗通过将治疗剂特异性与肿瘤结合进而杀死癌细胞或者通过靶向载体将化疗或放疗药物靶向递
现今,环境保护和人群健康问题已经成为全世界社会发展的重中之重,而近年来,中国工农业生产活动的快速发展严重影响了环境质量,我国环境污染事故也层出不穷,而环境治理手段相对匮乏且效果短暂。环境中的污染物,尤其是重金属,会在大气、水、土壤和食物中广泛分布,还会长期累积在机体中且不易降解。在此背景下,我国愈发重视农田土壤及典型农作物的重金属污染状况,国家领导人也多次强调了食品安全和人群健康的重大意义。目前,
南黄海陆架上发育了若干个大型水下沉积体系,分别有南黄海泥质区、古黄河水下三角洲、辐射沙脊群、扬子浅滩、长江水下三角洲,南黄海的独特地理位置使得该区域一直是海岸陆架区的研究热点,而南黄海沉积演化以及沉积物物源研究更是当前沉积学研究的热点。流体包裹体中保留了矿物成矿时期的环境条件,不同类型的流体包裹体反映出不同来源的流体信息。河流沉积物中的石英颗粒来自流域沿岸的各类岩石矿石的风化剥蚀产物,其中的流体包
近来年,重金属引起的土壤污染和健康问题备受关注。土壤中重金属的来源主要包括人为输入和基岩风化残留这两部分。目前,已有大量研究对人为活动造成的土壤重金属污染进行了探讨,结果表明人为输入的重金属对农田土壤造成了显著污染。但对于具有地质高背景的基岩风化造成的土壤重金属污染,目前大部分研究主要集中在超基性岩地区。作为基性火山岩,玄武岩富含过渡族金属元素,其在表生环境中极易风化,因此是某些重金属元素重要的潜
生态浮床具有生态协调性、经济性及适用性优势而被广泛应用于河道水体修复中,由于其主要依靠植物和微生物作用净化水体污染物,因此,受温度等环境因素影响较大,存在净水能力低下、处理效率不稳定等问题,在重污染水体中,浮床植物有时难以存活。因此,如何提高生态浮床氮磷去除能力,对其实际应用具有十分的重要意义。本文基于电化学反应稳定高效、便于维护的优势,将电解与生态浮床联用,选用生物质炭作为填料,构建了新型的电解