Hadoop+GPU大数据平台架构可行性分析

来源 :现代信息科技 | 被引量 : 0次 | 上传用户：kkufo

【摘要】

：

【作者】

：

曾贞

【出处】

：

现代信息科技

【发表日期】

：

2020年1期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：在信息化高速发展的时代，上海市中职计算机类课程开设与时俱进，各中职校计算机类教学资源日新月异，但由于缺乏统一资源库，每个学校的教学资源包括教学案例、音视频等数据不能共享，只能单独存放在独立数据库里。研究旨在分析Hadoop+GPU的大数据平台架构可行性应用，即集中存储和挖掘上海市中职计算机课程资源。此构架旨在汇总并挖掘中职计算机类课程资源，做到资源共享、教学资源充分利用，可以多层次多维度建立挖掘联系。
　　关键词：中职计算机;Hadoop+GPU;大数据平台架构;可行性应用
　　中图分类号：TP311.13 文献标识码：A 文章编号：2096-4706（2020）01-0066-03
　　Abstract：In the era of rapid development of information technology，computer courses in secondary vocational schools in Shanghai are advancing with the times，and computer teaching resources in each vocational school are changing with each passing day. However，due to the lack of a unified resource database，the teaching resources of each school include teaching cases，audio and video data cannot be shared and can only be stored in an independent database. The research aims to analyze the feasibility application of the big data platform architecture of Hadoop+GPU，that is，to centrally store and mine the resources of computer courses in secondary vocational schools in Shanghai. This framework aims to aggregate and mine secondary computer course resources，share resources，make full use of teaching resources，and establish mining connections at multiple levels and dimensions.
　　Keywords：secondary vocational computer;Hadoop+GPU;big data platform architecture;feasibility application
　　0 引言
　　在计算机技术飞速发展的今天，上海市中职计算机课程开设的日益繁多，各中职校计算机类教学资源也与日俱增，但每个学校的教学资源包括课件、教学案例、音视频等结构化和非结构化数据都是独立存在的。这么多的计算机类教学资源如果能被集中载入一个大數据平台并分门别类地存储，形成数据集市，并进行数据挖掘，将会大大提高中职计算机类教学资源的使用度，迸发出更多的创新思维和创新想法。本文探讨的就是上海市中职计算机类课程资源Hadoop+GPU的大数据平台架构可行性应用分析。
　　1 构建Hadoop+GPU大数据平台的作用分析
　　构建Hadoop+GPU的大数据平台的作用主要有以下两点。
　　1.1 收集和存储
　　上海市中职计算机类教学资源数据的收集和存储，包括结构化数据和非结构化数据。结构化数据就是各中职校各系统数据库中积累的各种计算机课程数据，比如教案、学生分数等;非结构化的数据包括各类音频、视频、动画、图像等。
　　1.2 分门别类贴好标签建档整理
　　平台存储完海量数据后，可以从不同纬度不同角度建立数据集市。比如从学生视角、教师视角、学科视角来分类切片建成数据集市，在不同大数据需求分析时可以快速整合。
　　Hadoop+GPU的大数据平台架构可以集中挖掘上海市中职计算机课程资源，并深入挖掘各资源间的联系，做到教学资源充分利用，起到1+1>2的良好效果。
　　2 Hadoop+GPU整体平台架构概述
　　2.1 平台逻辑架构
　　Hadoop+GPU的大数据平台架构逻辑包含以下几个组成部分，逻辑架构图如图1所示。
　　2.1.1 外围系统
　　大数据平台对接的上海市中职计算机类课程资源外围系统包括各中职校计算机课程教学课件系统、音视频系统、图像资料系统等。
　　2.1.2 Hadoop集群
　　用来处理大数据平台的所有计算机课程类资源数据迁移的工作，并且作为历史数据的存储，其优点在于保证了各中职校计算机类教学资源数据的安全性，一式三份的文件块备份，Apache Hadoop的另一个优点就是部署简单，容易操作。
　　2.1.3 文件服务器
　　用来存储Hadoop集群加工完成的各中职校计算机类教学资源结果数据，每一份数据都包括一个数据的标志文件，该文件记录了表数据的行数以及存储的大小等信息，如果下游系统需要数据，则统一到文件服务器上获取，保证了统一的数据出口。　　2.2 Hadoop节点架构概述
　　Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。
　　Hadoop框架透明地为应用提供可靠性和数据移动，实现了名为MapReduce的编程范式：应用程序被分割成许多小部分，而每个部分都能在集群中的任意节点上执行或重新执行。此外，Hadoop还提供了分布式文件系统，用以存储所有计算节点的数据，这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计，使得整个框架能够自动处理节点故障，能使应用程序与成千上万的独立计算的电脑和PB级的数据很好地存储、查询和分析计算机课程类资源数据。
　　2.2.1 Hadoop在整体架构中的功能
　　（1）数据存储。Apache Hadoop的底层HDFS分布式文件系统用来存储上海市中职计算机类课程资源外围系统的增量数据和历史数据;
　　（2）数据加工。数据仓库移植的所有程序，包括SQL、Shell和存储过程的程序加工都是通过Hadoop来进行加工的;
　　（3）逻辑架构。Hadoop架构的内部逻辑架构如图2所示。
　　2.2.2 各组件的功能描述
　　（1）NameNode。Hadoop集群的心脏，保存着所有计算机课程类资源数据的元数据序列结构，并且管理所有节点的运行状态，接收DataNode的心跳，判断节点是否运行正常;
　　（2）Secondary NameNode。辅助名称节点，或者检查点节点，是监控HDFS状态的辅助后台程序，可以保存名称节点的副本，故每个集群都有一个，与NameNode进行通讯，定期保存HDFS元数据快照;
　　（3）DataNode。数据节点，每台从服务器节点都运行一个，负责把HDFS数据块读、写到本地文件系统;
　　（4）JobTracker。作业跟踪器，运行到主节点（Name Node）上的一个很重要的进程，是MapReduce体系的调度器。用于处理作业（用户提交的代码）的后台程序，决定有哪些文件参与作业的处理，然后把作业切割成为一个个的小task，并分配到所需要的数据所在的子节点。
　　（5）TaskTracker。任务跟踪器，MapReduce体系的最后一个后台进程，位于每个slave节点上，与DataNode结合（代码与数据一起的原则），管理各自节点上的Task（由JobTracker分配），每个节点只有一个TaskTracker，但一个TaskTracker可以启动多个JVM，用于并行执行Map任务或Reduce任务，它与JobTracker交互通信，可以告知JobTracker子任务完成情况，是集群不可或缺的组成部分。
　　2.3 对外服务
　　平台对接的外围系统可以通过JDBC或者ODBC链接文件服务器，根据表数据的标志文件，获取文件服务器上的数据文件，FTP到下游系统，供给前台功能查询。
　　2.4 整体数据流程
　　根据大数据平台的需求概述，计算机课程类资源数据的生命周期分为：捕获数据、数据的存储加工、数据提供服务三大块。
　　2.4.1 捕获数据
　　外围系统数据经过CDC或者DS工具，将表级的增量数据获取到文件服务器上，Hadoop集群根据每个表的标志文件获取数据，并将增量的数据文件装载到Hadoop-Hive的数据库里，并且进行数据文件的基本校验，捕获数据图如图3所示。
　　2.4.2 数据存储加工
　　计算机课程类资源数据的整体加工是在Hadoop集群中进行的，具体的加工是依赖于Hive的批处理作业的功能来实现整体大数据平台的作业开发，包括以下几点：
　　（1）HDFS数据存储。HDFS是一個高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用;
　　（2）ZooKeeper。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户;
　　（3）YARN。Apache Hadoop YARN（Yet Another Resource Negotiator，另一种资源协调者）是一种新的Hadoop资源管理器，是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度以及数据共享;
　　（4）MapReduce。MapReduce是一种编程模型，用于大规模数据集（大于1 TB）的并行运算;
　　（5）Hive。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。
　　2.4.3 数据提供服务
　　整体计算机课程类资源数据的对外服务流程数据提供服务图如图4所示，Hadoop集群通过Hive加工完成的数据，通过FTP将数据以文本文件的格式存放到文件服务器中，下游系统根据各自的业务需要，通过判断文件服务器上表的标志文件进行数据的获取，这样就可以将数据服务统一化、格式统一化、服务标准统一化。
　　3 结论
　　上海市中职计算机类课程资源Hadoop+GPU的大数据平台架构非常具有可行性，海量的计算机类教学资源能被集中载入平台存储，形成数据集市，可以进行深度的数据挖掘，会大大提高中职计算机类教学资源的使用度。
　　在Hadoop+GPU的大数据平台上可以形成各种维度的数据检索资料库，可以对结构化和非结构化的数据进行分析，通过大数据抓取、数据挖掘、数据建模等技术，通过时间维度，课程质量维度等可以做课程教学质量评估、学生受欢迎程度等各种科研分析。
　　参考文献：
　　[1] 刘彬斌，李柏章，周磊，等.Hadoop+Spark大数据技术（微课版） [M].北京：清华大学出版社，2018：1-30.
　　[2] 黄东军.Hadoop大数据实战权威指南 [M].北京：电子工业出版社，2017：1-10.
　　[3] 山姆·阿拉帕蒂.Hadoop专家：管理、调优与Spark |YARN|HDFS安全 [M].北京：电子工业出版社，2019：5-10.
　　[4] 杨力.Hadoop大数据开发实战 [M].北京：人民邮电出版社，2019：1-20.
　　作者简介：曾贞（1982.06-），女，汉族，江西玉山人，讲师，硕士，研究方向：新媒体大数据。

其他文献

大学计算机深度教学中的课程设计研究

摘要：大学文科计算机课程是教育部要求非计算机专业文科学生必修的公共基础课程，是信息时代大学生必须掌握的基本技能，为了适应新时代对于大学文科学生的要求，实现相应的培养目标，必须摆脱传统公共基础课的教学模式，同时也不能照搬一般计算机专业课程的教学方式。从“宏观层次、中观层次和微观层级”三个方面探讨如何进行大学文科学生的计算机深度教学课程设计改革探讨，以“Photoshop 2020”为例进行教学研究

期刊

互联网视阈下线上线下混合式教学模式初探

摘要：随着互联网的不断发展，新媒体研究早已成为国家层面的重要主题，新媒体也日益成为人们重要的生活方式，新媒体类课程对于传媒类专业学生的发展与就业十分重要，其实践性较强，要求学生通过课程学习，不仅能加深对所学知识的理解，更重要的是能综合运用所学知识与技能解决复杂的现实问题，文章以新媒体类课程为例，探究互联网视阈下线上线下混合式教学模式的运用。　　关键词：线上线下混合式教学;新媒体;课程　　中图分类

期刊

概念塑造和创意思考法在教学中的应用研究

摘要：由于技工院校学生普遍受知识水平、经验阅历、感受体验等多方面的限制，创新意识和创造能力的不足成了当今技工院校学生的短板。为了解决创新创造能力薄弱的问题，以及实现专业教学与企业需求的有效对接，现以广州市轻工技师学院多媒体制作专业高技层次核心课程“高级影视特效制作”的教学作为研究基础，尝试在教学过程中引入成功企业的创意构思工作方法。通过教学的实践证明，概念塑造和创意思考法能有效引导学生激发内在潜

期刊

智能监控摄像头的研究

摘要：文章对于一种基于Linux系统和树莓派开发的智能监控摄像头进行了研究。面对人员情况复杂，布置环境多种多样的应用条件，这种摄像头具有无线化、小型化、智能化的特点，减少了对布置环境的要求以及对相关人员的需求;结合视觉信息处理、云台舵机控制，可以自动进行人脸识别、人脸验证、识别颜色等;并且在识别特征的基础上持续跟拍目标，适合紧急布置，识别特定目标并跟拍的任务。　　关键词：监控;人脸识别;特征检测

期刊

虚拟仿真实训教学的探索

摘要：为解决“中医骨伤科学”实训课难以为学生提供真实病例反复训练的现状，提出基于虚拟仿真技术的虚拟仿真教学法，将122名中医专业学生随机分成虚拟仿真教学组及传统教学组，前者接受虚拟仿真教学，后者接受传统实训课教学。授课完毕后对两组学生完进行考核。结果显示：虚拟仿真教学组学生操作考核平均分及学生满意度均明显优于传统教学组。研究表明，虚拟仿真教学法是一种行之有效的教学方法创新，可为其他学科实训课教学

期刊

区域经济运行机制模型建立

摘要：智慧城市指综合利用各类信息技术，通过对城市人与物的感知和互通，大幅优化并提升城市运行效率的过程。文章针对广州市南沙区的区域经济运行展开结构化、动态化、指数化的定量研究，建立区域经济运行指标体系模型，并借助该模型提升南沙区政府决策的“智慧度”。首先运用计量经济学的相关方法构建区域经济运行指标，然后通过德尔菲法对指标进行权重赋值，并应用AHP层次分析法确定最终的指标权重，最后通过基准对比分析每

期刊

计算机类公共课程的“FOS导学模式”构建

摘要：课程导学是导学教师为学生提供的学习支持服务手段之一，即由导学教师配合授课教师在课程教学前后为学生提供的学习支持服务，既可以对学习内容进行辅导，也可以对学习方法进行指导。针对成人高校计算机公共基础课程教学现状，以西安广播电视大学为例，围绕“计算机应用基础”课程，分析计算机基础课程体系构建的基础和目标，在对不同专业需求和学习要求进行调研的基础上，从专业角度出发，对计算机类公共或基础课程构建“F

期刊

基于ZigBee无线传感网络监控疫情预警系统设计

摘要：新冠肺炎引起的急性呼吸道传染病，存在“人传人”的现象。体温异常为判断疑似和确诊新冠肺炎的重要指标之一，人工测体温不仅耗时、费力，最主要的是增加传染概率。基于ZigBee无线传感网络对新冠肺炎疫情预警系统进行设计，节省人力，对新冠肺炎的预防能在第一时间获得数据，防止校园大规模爆发，并且能够降低新冠肺炎在人工测量时带来的风险，有效控制新冠肺炎。　　关键词：ZigBee;无线传感网络;新冠肺炎;

期刊

信息化背景下课程教学改革的研究

摘要：为了提升学生的实践动手能力，现在越来越多的高职教师都选择采用项目化教学，随着项目化教学的不断深入，项目化教学实施的问题也逐渐显现出来，基于此，以高职高专汽车检测与维修专业学生学习“汽车电器构造与检修”课程为教改对象提出了信息化教学改革的新思路，通过教学改革表明，采用信息化教学模式，可以有效地提升学生的学习兴趣，拓展学生的学习时间和学习空间，既提升学生的创新能力，使学生的综合职业素养也得到了

期刊

信息化教学网络名师工作室建设的思考

摘要：近年来，立足于不同学科或研究点的名师工作室建设在全国多地展开，对于教育教学团队的建设起到了积极作用。信息化教学是当前教育界普遍关注的现代教学手段之一，并得到了众多教师的实践与运用。将信息化教学与名师工作室相结合并借助于网络平台是大面积提升教师信息化水平的有效途径。“泛PPT”则是以当前教师群体使用的主流信息手段PPT为基础，添加若干插件而深化其内涵、丰富其功能。信息化教学教研的聚焦点在于基

期刊

Hadoop+GPU大数据平台架构可行性分析

与本文相关的学术论文