基于Spark的实时数据治理系统的研究与实现

来源 :西华大学 | 被引量 : 0次 | 上传用户:qqqq8989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业数字化进程加速,在大型组织内部基于传统关系型数据库的业务系统存在横向扩展困难、烟囱式建设等问题,导致系统内部数据杂乱、难以溯源、质量低下及系统间数据无法互通。数据治理作为解决上述数据管理问题的核心技术,具有研究与应用价值。目前,基于各种数据治理理论的数据治理系统已在市面上广泛地应用,但现有数据治理系统还存在以下缺点:1.仅能处理离线数据,不支持对实时数据流的计算。2.数据治理系统难以应对海量数据的计算请求。为改进现有数据治理系统缺陷,本文根据目前企业、政府的数据管理痛点和数据治理系统的诸多问题,对数据治理系统架构和分布式并行计算框架内存分配机制进行研究,本文的主要成果如下:(1)数据治理系统概要设计与具体实现。本文基于对上海市奉贤区自来水公司的用户实际需求,设计基于Spark的数据治理系统的功能模块、工作流程及技术架构,并构建数据采集、离线数据仓库及元数据管理模块实现对企业多个烟囱式建立的业务系统数据的全生命周期管理。(2)改进现有数据治理系统。本文引入Spark Streaming技术解决现有数据治理系统无法应对实时数据处理需求的问题,在现有数据治理系统的基础上设计并实现实时数据处理解决方案,并解决了实时数据处理过程的数据幂等性和数据流合并问题。(3)改进Spark并行计算框架的计算效率。通过源码分析和阅读相关文献,本文提出一种基于任务溢写信息和动态内存分配思想的Spark任务调度器SABSR,该调度器根据Executor中计算任务的内存需求情况对计算任务进行自适应分配内存,能减少Spark Job在计算过程中内存溢写的次数。经实验表明,在内存紧张的环境中,SABSR调度器改进了Spark FAIR调度器在Spark Shuffle过程内存分配方面的不足,在Intel Hibench数据倾斜程度高的数据集下作业执行时间较Spark FAIR调度器最多减少9.7%。最后,本文以上海市奉贤区自来水公司大数据平台实际落地出发,结合开源大数据框架Spark、Hadoop、Hive、Kafka等构建与改进实时数据治理系统,经过对系统的性能测试和功能测试,证明系统能够高效地归集业务系统数据与管理元数据,并能够应对实时数据处理请求,解决水务数据利用率低、数据质量差的问题。
其他文献
当前,国内经济环境深刻变化,企业间的竞争不断加剧,企业之间的竞争最终是人才的竞争。新员工是企业人才的重要组成部分,能为组织带来新的视角和新的知识,被认为是企业核心竞争力的主要来源。然而,初入组织的新员工会因为不熟悉正式的组织制度、工作内容,不适应组织的人际关系,导致绩效低下、组织承诺低、留职意向不高、短期内快速离职等问题,不利于企业的人才培养,也严重制约了企业的发展。因此,如何引导员工转变观念,主
中国绿色电力证书市场尚处于初级阶段,绿色电力证书自愿交易不活跃。中国政府持续调整完善绿色电力证书相关政策。本文首先研究了新政策下影响绿证定价和交易决策的主要因素;然后,建立了配额主体参与绿证交易的边际价格动态模型;进而,分析对比实际绿证市场交易价格与企业愿意接受的绿证交易边际价格,确认获得绿证认购量;最后,为促进我国绿证市场健康发展提出建议。
语法是小学英语教学中的基础模块,也是学生必须掌握的重点内容。要想提升学生的英语学习能力,教师需要对语法教学投入更多的关注,帮助学生了解英语语法规则,形成英语学习意识。为了提高小学英语教学质量,规范学生的语法表达,文章对冀教版《义务教育教科书·英语》中的语法编排特点进行分析,探讨如何借助语法教学培养学生的英语核心素养。
<正>教材分析:《纪昌学射》是统编语文四年级上册第27课的一则寓言故事,是一篇略读课文。这则寓言故事选自《列子·汤问》,讲的是纪昌拜飞卫为师学习射箭,飞卫叫他先要下功夫练眼力,一是"眼睛要牢牢地盯住一个目标,不能眨一眨";二是"练得能够把极小的东西看得很大,把模糊难辨的东西看得很清楚"。纪昌一一照做。等练好了眼力,飞卫
期刊
初中物理与学生生活息息相关,具有较强的实践性、实用性,要求学生拥有较强的动手能力。物理实验能够锻炼学生的动手能力,并通过实践不断地验证所学的物理知识,加深学生对物理知识的理解程度。在初中物理课堂上,应用实验教学的方法,能够不断提升学生的动手能力,是新课改背景下对初中物理教学提出的新要求。实验教学与物理课程的特点具有较高的一致性。基于此,通过对初中物理实验教学现状的分析,对其有效策略进行了探讨。
地下电缆在使用过程中,容易受到工程车辆作业破坏,针对这种情况,文章提出将声纹识别技术应用在地下电缆防护中,通过收集环境声音,判断电缆周围是否存在工程车辆作业,及时向有关部门发出预警。在声纹识别过程中,提出加权动态梅尔频率倒谱系数(mel frequency cepstrum coefficient,MFCC)作为声纹识别的特征参数,由梅尔倒谱系数及其加权的一阶和二阶差分系数合并而成,不仅能够反映音
绿地土壤是城市雨水渗蓄的主要界面,研究不同植被类型土壤物理性质可以为城市绿地雨水调控提供依据。文章以新乡市5个城市公园绿地作为研究对象,通过布点采样法测定乔草地、灌草地、草地0~15 cm、15~30 cm、30~45 cm土层的土壤物理性质,探讨不同植被类型绿地土壤入渗性能以及与其他土壤物理性质指标之间的关系。结果表明:灌草地土壤容重、土壤比重、土壤孔隙度、土壤紧实度均优于乔草地和草地,草地的土
<正>火车在县界长长的隧道直行,窗外流动的橘黄色与窗内佳人的柔和面庞里外交融,映在了透明的窗玻璃上,似叠影,似虚幻。这是从东京到雪国,从尘世通往银河之境的旅程。跟随着川端康成凄美空灵的笔触,我仿佛也和故事主人公岛村一同乘着一趟列车,穿过某个长长的隧道,抵达雪国,看到夜空下白茫茫的雪地上曾伫立过的不灭的美。《雪国》写的是东京一位名叫岛村的舞蹈艺术研究家,
期刊
毕赤酵母(Pichia pastoris)是当前应用较为广泛的真核表达系统,因其具有高效调节的甲醇诱导型启动子(PAOX1),能够严格调控酵母外源蛋白的表达分泌。目前,毕赤酵母已成为生产外源蛋白的重要工具,在医药、食品和饲料等领域发挥着重要作用。但由于不同外源蛋白的表达量差异较大,外源蛋白表达缺乏有效的调控机制,尤其在信号传导通路调控蛋白分泌方面知之甚少,因此,如何进一步改造底盘细胞毕赤酵母,提高
自主学习是自我导向,自我激励,自我监督的学习。自主学习有利于新课程改革的实施,有利于实施素质教育,有利于实现个体的终身学习。在中学物理教学中可采取基于问的题学习、实验资源的利用、探究式教学和课后归纳总结等方式提高学生的自主学习能力。