高可用分布式任务调度与执行系统设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wpaghq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文选题基于研究生阶段实习过程中参与开发的用于互联网产品大数据处理的系统项目。该互联网产品有着千万级别的用户基数和稳步增长的用户数量,为了区分出不同用户,与目标用户产生互动从而保持用户忠诚度以及激发新用户的兴趣,因此需要对现有的全量用户的相关数据进行处理,筛选出目标用户以及相关信息。因为该互联网产品的全部用户相关数据都存储在关系型数据库中,传统处理数据的方法是采用多线程编程单机部署程序的方式,但是该方式存在执行效率低,复用性差的问题。另一种方法是将目标数据全部迁移到非关系型数据库中,然后使用成熟的大数据处理工具处理相关的大规模数据,但是该方式存在基于当前复杂的物理存储模型构建数据完整性的迁移模型十分困难的问题。面对这些问题,本论文从实际的业务需求出发结合对分布式技术的研究设计并实现了一个基于Zookeeper的高可用分布式任务调度与执行系统。该系统由与外界环境交互的统一网关模块、拆分及分配数据处理任务的任务调度及分配模块、执行数据处理任务的任务执行模块、保证系统高可用性的高可用性保障模块和日志模块构成。这样的设计与实现方式,使得该系统可以接收任意类型的且目标数据在关系型数据库中的各种数据处理任务,通过单独的任务调度及分配模块和可扩展的任务执行模块可以满足不同任务量的多任务数据处理需求。并且本系统在设计与实现时考虑到任务调度及分配模块在系统中的重要性和系统多任务处理的必要性,设计并实现了系统的高可用保障模块,系统使用两台机器部署任务调度及分配模块,分别为一个工作节点和一个备用节点,通过备用节点自动顶替出现故障的工作节点的方式来实现本文系统的高可用性。通过完整的功能测试与性能测试,表明本文所实现的高可用分布式任务调度及执行系统的功能符合预期,大数据量数据处理任务的执行效率远高于传统多线程编程单机部署程序的执行效率,并且理论上系统可以通过增加任务执行节点的方式提升整个系统的任务处理能力。最终本文实现的系统具有相当良好的业务独立性,相关扩展性,高可用性等特点。
其他文献
本文是基于高分辨率的Quick Bird影像数据研究艾比湖湖泊及周边的风蚀程度,为艾比湖确定保障水位,减小干涸湖底的沙源提供科学依据。得出以下结论: (1)艾比湖的干涸湖底是这一
随着移动互联网的高速发展和快速普及,人们逐步进入万物互联的时代,每天都会产生海量的移动数据信息。特别是近些年不断兴起的短视频社交APP和电商APP,这类APP每天都会产生大量的短视频和图片,它们的数据存储空间相对较小,大都在10M左右。然而当前业界的HDFS、GFS等分布式文件存储系统都是针对大文件设计的,在处理海量小文件的时候其性能会急剧下降,甚至无法正常对外提供服务。设计一个海量小文件的存储访
目的:回顾性分析全疆地区7年脑瘫患儿的数据信息,分析其流行学特征及分布规律,为脑瘫的预防控制提供信息参考;采用数据挖掘方法,筛选、提取、简化脑瘫患儿临床诊断分型以及手术方式选择的相关临床表征指标,为疾病的临床决策提供方法学参考。方法:收集20112017年于新疆脑瘫康复中心治疗的脑瘫患儿数据以及20172018年住院患儿的病案信息。采用描述性流行病学方法分析2011-2017年1926例脑瘫患儿的
委婉语是英语里常见的一种修辞手段 ,一方面 ,就其交际目的而言 ,它可以分为肯定和否定两类 ;另一方面 ,从讲话者的意图来考虑 ,包括肯定和否定在内的委婉语又可以分为有意、
近二三十年间,随着经济水平的发展,我国城镇化进入加速发展通道,与此同时也产生了所谓“(大)城市病”。因此,针对新型的、可持续的城镇化发展模式的探索迫在眉睫。在各大城市
在2011年北师大出版的《中小学音乐课程标准》中明确提出:“要充分利用音乐艺术的集体表演形式和实践过程,培养学生良好的合作意识和群体意识。”在音乐教学实践中,合唱作为
针对某光伏企业废水处理站工艺路线不合理、处理能力不足、出水不达标等问题,采用物化沉淀—水解酸化—MBR工艺进行改造,在基本不增加构筑物的前提下,将处理能力由不足1 000
《品德与社会课程标准》指出:“在教学时要善于调动和利用学生已有的经验,结合学生现实生活中实际存在的问题,共同探究学习主题,不断丰富和发展学生的生活经验,使学生在获得
《塔里木河》是一部"以人为本,以河为线"的纪录片,该纪录片将地域性的民族文化呈现为普罗大众所能理解、接受和喜爱的影像,通过叙事技巧和视听语言来呈现一方文明的发展进程
本文主要研究了水体泄漏柴油、原油、苯乙烯的反射率光谱与其污染物厚度间的关系,对水上污染物厚度预测实验的可行性进行了分析研究,在此基础上主要是针对低空无人机(多光谱)和地物(高光谱)不同观测平台下获得的两种光谱数据,分别提取了不同污染物的厚度预测变量。然后,通过多元线性回归、偏最小二乘、支持向量机和随机森林四种预测模型分别建立了水上柴油、原油、苯乙烯泄漏的厚度估算研究,主要的实验结果如下:(1)利用