基于Hadoop的数据作业管理平台设计与实现

被引量 : 4次 | 上传用户:mmcccc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“大数据”时代的到来,分布式数据处理平台受到越来越广泛的关注,其中H adoop成为了以数据为中心的大规模数据处理平台的主流实现之一。Hadoop在互联网企业得到了广泛的应用,由于Hadoop任务处理需要编写MapReduce程序、处理数据的输入和输出,并且在大公司内每天的任务处理数量庞大,如何对Hadoop的任务进行有效管理成为了一大难点。因此开发一套基于Hadoop的数据作业管理平台显得十分有必要。本文首先详细分析了Hadoop的分布式文件系统和MapReduce计算框架,最后详细阐述了平台的设计和实现。本文完成的主要工作包括:1.在充分考虑通用性、扩展性、安全性以及高效性的基础上确定了平台架构,规划了基于Hadoop的数据作业管理平台的框架设计,基于Nginx、FastGCI、MFC等技术设计了平台的逻辑功能模块、数据库结构和客户端界面。2.基于Hadoop的分布式文件系统(HDFS),实现了业务数据的分布式存储;基于Hadoop的MapReduce编程模型对平台的分布处理程序进行了封装,实现了Hadoop任务的统一调度。3.规划了图片批次数据从批次创建、数据准备、批次作业、批次验收到批次入库的处理流程,实现了业务流程的平台化管理。4.建立了平台的帐号管理体系,对帐号进行角色权限管理,实现了不同模块间的权限分离,保证了平台的数据安全性。本文设计和实现的基于Hadoop的数据的数据作业管理平台已经在某企业投入使用。平台结合Hadoop分布式处理系统,支持图片业务数据的分布式存储、图片拼接分布式处理和图片隐私打码分布式处理,实现了图片业务数据的流程化处理。平台运行以来稳定可靠,缩短了业务数据的作业周期,减少了人力成本,达到了预期设计目标。
其他文献
日前,国家劳动和社会保障部新确立了十二个新职业,其中咖啡师颇为引人注目,因为一个优秀的咖啡师,制作的不仅仅是一杯咖啡,也是在制造一种咖啡文化。那么,什么是咖啡师?需要
在国有企业中,薪酬激励是激励机制的主要内容和手段,发挥着举足轻重的作用,但一些国有企业酬激励机制还存在许多问题,运用系统方法对薪酬激励机制的设计进行了探讨。
<正>本科教育体现了大学的不可替代性,本科教育质量则是一所大学办学质量的核心体现。因此,如何提高本科教育质量,尤其是如何提高人才培养质量,就成了每一所大学都需要认真思
<正>数学教育是幼儿园教育的重要组成部分,也是促进幼儿全面发展的重要途径。但是数学是一门抽象的逻辑思维学科,而幼儿期的孩子年龄小,形象思维占主要地位,逻辑思维几乎等于
利率市场化改革是我国金融体制改革的重要方向之一,我国货币当局在今后的货币政策操作中将越来越重视以价格手段来调控经济运行,政策调控面临着从数量规则向利率规则过渡的契
提出一种基于双对极鳍线-微带过渡的Ka频段1×2路波导基功率合成器,借助谱域法完成最佳渐变鳍线阵设计。在29~39GHz范围内实测背对背插损小于0.9dB,回波损耗优于12.0dB。通过
综述了煤炭地下气化技术的国内外发展现状,介绍了煤炭地下气化技术的多种方法。通过煤炭地下气化技术对社会带来经济及环境效益的评价,阐明了煤炭地下气化技术的综合利用具有
<正>站在科技和人文的十字路口,多看的路该如何走?多看科技副总裁胡晓东描绘的理想境界是"所想即所得",而这背后则是一家本土创新公司不愿做追随者的独有商业逻辑。在投资界,
目的分析比较汶川与玉树地震中收治伤员的伤情特点与治疗策略,总结救治经验,为改进应急医疗提供参考。方法采集在两次地震中收治伤员的临床资料,分析伤情及救治特点并比较。
<正>我国科研系统主要由高校、科研院所、企业科研机构三大部分构成。目前,这三个科研子系统各自独立运行,长期处于"封闭"状态,高校、科研院所、企业之间基于利益驱动的自愿