基于Hadoop的云计算平台设计与开发

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户：hzn_avr

【摘要】

：

【作者】

：

邓赟

【出处】

：

计算机光盘软件与应用

【发表日期】

：

2011年24期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：随着北部湾海洋生态资源的开发和利用，海量海洋科学数据飞速涌现出来，利用云计算平台合理管理和存储这些科学数据显得极为重要。本文提出了一种基于分布式计算技术进行管理和存储海量海洋科学数据方法，构建了海量海洋科学数据存储平台解决方案，采用Linux集群技术，设计开发一个基于Hadoop的云计算平台。
　　关键词：云计算；海洋科学数据；Hadoop；分布式计算
　　中图分类号：TP311.13文献标识码：A文章编号：1007-9599 (2011) 24-0000-02
　　Hadoop-based Cloud Computing Platform Design and Development
　　Tang Yun1,2
　　(1.Hubei University of Technology School of Computer Science,Wuhan430068,China;2. Lishui City Road Administration Detachment of the Highway Brigade,Lishui323000,China)
　　Abstract:With the development and utilization of marine ecological resources in the Beibu Gulf,the mass of marine scientific data rapidly emerged,the use of cloud computing platform for the rational management and storage of scientific data is extremely important.In this paper,manage and store large amounts of marine science data method based on distributed computing technology to build a massive marine science data storage platform solutions,using the Linux cluster technology,design and development based on a Hadoop cloud computing platform.
　　Keywords:Cloud computing;Marine science data;Hadoop;Distributed computing
　　传统的对大规模数据处理是使用分布式的高性能计算、网格计算等技术，需要耗费昂贵的计算资源，而且对于如何把大规模数据有效分割和计算任务的合理分配都需要繁琐的编程才能实现，而Hadoop分布式技术的发展正解决了以上的问题。Hadoop是Apache开源组织的一个分布式计算框架，可以在大量廉价的硬件设备组成的集群上运行应用程序，构建一个具有高可靠性和良好扩展性的并行分布式系统，HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）、MapReduc编程模型和HBase分布式数据库是其三大核心技术。
　　一、平台总体设计
　　（一）平台总体框架结构
　　结合海量数据异构性、分布性、多样性等特点，从系统编程实现角度考虑，本系统采用MVC三层架构设计，使结构更加清晰，系统易于扩展。系统整体架构如图1所示：
　　
　　图1平台整体框架结构
　　显示层：为用户提供方便、易用和友好界面，普通用户可以通过页面浏览和查询海洋数据，高级用户可以利用系统提供的公共API接口，扩展系统。
　　业务处理层：并行处理海量海洋科学数据，并对整个平台系统配置管理。
　　数据资源层：是整个平台的基础，存储和管理海量海洋科学数据。
　　（二）平台总体功能设计
　　从系统功能角度考虑，可以将整个系统分二层：
　　第一层是数据访问层。对于海量数据存储，在存取数据时不会只局限对一种数据库的操作，本层需要对各种数据库提供的不同数据源进行屏蔽，提供数据库访问服务，这样系统才能够适应处理存储海量数据的要求，具有较好的可扩展性和完备性，方便管理和部署。
　　第二层是数据处理层。数据处理层作为整个系统的核心，同时也是本系统设计开发的重点内容。它采用分布式数据库技术、Linux集群技术等，提供了对海量数据的并行加载存储等主要功能。只有通过这一层对海量数据并行处理，才能把处理后的数据存储到本系统的分布式数据库中。同时提供了保证系统能够正常运行的管理支撑服务。
　　二、云计算平台开发
　　根据本平台功能设计，存储平台最主要的部分是数据处理层，而在实现数据处理层时，数据的并行加载存储模块成为了整个平台实现的核心，Hadoop分布式技术为该平台提供了数据存储和数据处理的模型及方法。使用Hadoop分布式文件系统存储海量源数据，通过MapReduce分布式计算模型来处理这些海量源数据，然后采用Hbase分布式数据库存储处理后的海量数据，以此来实现对海量海洋科学数据的存储管理。
　　（一）Hadoop分布式文件系统
　　HDFS是分布式计算的存储基础，它具有高容错性，可以部署在廉价的硬件设备上，用来存储海量数据集，并且提供了对数据读写的高吞吐率。HDFS为北部湾海洋科学数据提供了海量存储的基础，作为未处理的源数据集保存在Hadoop分布式文件系统中。
　　HDFS采用Master/Slave的体系结构，集群中有一个NameNode和很多个DataNode组成。NameNode是主控服务器，管理文件系统元数据。它执行文件系统的命名空间操作，比如打开、关闭、重命名文件或目录，还决定数据块到DataNode的映射。DataNode存储实际的数据，负责处理客户的读写请求，依照NameNode的命令，执行数据块的创建、复制、删除等工作。一个集群只有一个NameNode的设计大大简化了系统架构。体系结构如图2所示：
　　
　　图2HDFS体系结构
　　NameNode使用事务日志（EditLog）来记录HDFS元数据的每次变化，使用映像文件（FsImage）存储文件系统的命名空间，包括数据块到文件的映射、文件的属性等等。事务日志和映像文件是HDFS的核心数据结构。NameNode启动时，它将从磁盘中读取映像文件和事务日志，把事务日志的事务都应用到内存中的映像文件上，然后将新的元数据刷新到本地磁盘新的映像文件中。
　　HDFS还设计有特殊的Secondary NameNode节点，辅助NameNode处理映像文件和事务日志。它会定期从NameNode上复制映像文件和事务日志到临时目录，合并生成新的映像文件后再重新上传到NameNode，NameNode更新映像文件并清理事务日志，使得事务日志的大小始终控制在某个特定的限度下。
　　（二）HBase分布式数据库
　　HBase是一个功能强大的分布式数据存储系统，基于列存储数据记录。数据行有三种基本类型定义：行关键字（Row Key），时间戳（Time Stamp）和列（Column）。每行包括一个可排序的行关键字，是数据行在表中的唯一标示。一个可选的时间戳，每次数据操作都有一个相关联的时间戳。某些列中可以有数据也可以没有。列定义为：：(<列族>：<标签>)通过这两部分唯一指定一个数据的存储列。海量的海洋科学数据经过MapReduce计算以后就可以按其K值作为行关键字进行分布式存储，实现存储和管理海量数据功能。海洋有关科学数据的存储如表1所示：
　　表1数据存储示例
　　行关键字时间戳列列
　　halobios T8 type：plant waterweeds
　　 T5 type：anmial fish
　　 T2 1
　　对以行名称为halobios，在T2时刻对列族ID的添加数据“1”，在T5时刻对列族type：plant添加数据“waterweeds”，在T8时刻对列族type：anmial添加数据“fish”。
　　HBase主要由主服务器、子表服务器和客户端三部分组成。主服务器做为HBase的中心，管理整个集群中的所有子表服务器，监控每个子表服务器的运行情况等。子表服务器接收来自主服务器的分配的子表、处理客户端的读写请求、缓冲区回收、压缩和分割子表等功能。客户端主要负责查找用户子表所在的子表服务器地址信息。
　　平台还可以整合现有的关系型数据库，通过去异构化处理共同提供海量数据存储服务。这里对关系型数据库开发由于篇幅原因不再赘述。
　　三、结束语
　　本文设计并开发了基于Hadoop的海量海洋科学数据存储平台。采用Linux集群技术、并行分布式数据库技术、以Hadoop分布式平台作为基础，主要以HDFS分布式文件系统、Map/Reduce并行计算模型以及Habase数据库技术作为处理海量数据方法，在大量的廉价普通计算机上搭建该平台，达到了高效存储和管理北部湾海量海洋科学数据的要求。目前该海量数据存储平台还在开发中，平台模块实现的结果表明，系统具有良好扩展性和易维护性，系统采用的技术路线和设计方法是有效和可行的。
　　参考文献：
　　[1]B.Hayes.Cloud Computing[J].Communications of the ACM,2008,51(7):9-11
　　[2]Hadoop.URL：http：//hadoop.apache.org/
　　[3]陈康,郑纬民,云计算：系统实现与研究现状[J].软件学报,2009,20(5):1337-1348
　　

其他文献

试析计算机数据库的备份及恢复技术

摘要：在计算机设备数据存储量不断增大的同时，对数据安全进行保护则显得更加地重要。针对这一点，本文就计算机数据库的备份与恢复技术进行研究。　　关键词：计算机数据库；备份；恢复　　中图分类号：TP309.3文献标识码：A文章编号：1007-9599 (2011) 24-0000-01　　Analysis of Compute Database Backup and Recovery Technolog

期刊

ZigBee模块在智能家居中的应用

摘要：智能家居作为家庭信息化的实现方式已成为社会信息化发展的重要组成部分，在物联网智能家居繁多的应用中，因基于Zigbee模块物联网最大的特点就是低功耗，特别是带有路由的可组网功能，非常符合物联智能家居这种市场需求的。　　关键词：智能家居；物联网；Zigbee模块　　中图分类号：TN929.5文献标识码：A文章编号：1007-9599 (2011) 24-0000-01　　ZigBee Modul

期刊

家庭无线网络的安全构建

摘要：本文通过七点安全技巧，对家庭无线网络安全的防范提出了解决办法。1.对无线路由设备的用户名密码修改；2.对无线信号加密；3.修改ssid；4.禁止ssid广播；5.对mac地址过滤；6.禁用dhcp，使用静态ip；7.隐藏无线设备。　　关键词：无线网络；安全　　中图分类号：TP273.5 文献标识码：A文章编号：1007-9599 (2011) 24-0000-01　　Security Con

期刊

校园网IP地址冲突原因分析及防范

摘要：文章通过对局域网中IP地址的冲突问题进行研究，分析了常见的IP地址的冲突原因，在此基础上提出了IP地址冲突的解决应在管理上和技术上加以防范，保证校园网安全运行。　　关键词：校园网；IP；地址冲突；防范　　中图分类号：TP3文献标识码：A文章编号：1007-9599 (2011) 24-0000-01　　Campus Network IP Address Conflict Causes Ana

期刊

变系数Burgers方程的N孤子解

摘要：将简化的双线性方法进行了推广，并运用这种方法获得了变系数Burgers方程的N孤子解。　　关键词：双线性方法；变系数Burgers方程；N孤子解　　中图分类号：TP311 文献标识码：A文章编号：1007-9599 (2011) 24-0000-01　　N-soliton Solution of Variable Coefficient Burgers Equation　　Xia Hongm

期刊

软件冗余技术在嵌入式系统中的作用

摘要：软件冗余技术的应用，使嵌入式系统更加可靠。一般的嵌入式系统为了确保系统程序正常运行使用看门狗，看门狗确实能够避免死机现象的发生，但是其存在干扰导致存储被破坏需要充分编写程序这种风险。为此嵌入式系统开始运用软件冗余技术，使嵌入式系统可靠性得到进一步提高。　　关键词：软件冗余技术；嵌入式系统；可靠性　　中图分类号：TP309.3 文献标识码：A文章编号：1007-9599(2011)24-000

期刊

面向服务设计模式下的工作流系统平台

摘要：随着网络技术的发展以及高校图书馆信息量的增大，传统模式下的工作流系统暴露出诸多问题，通过分析传统模式下的工作流系统的优缺点，并针对其不足，提出了面向服务设计模式下的工作流系统平台，阐述了该平台的结构，并通过对比，详细分析面向服务设计模式下的工作流系统平台的优势以及其重要性。　　关键词：面向服务；工作流系统；图书馆；应用信息系统　　中图分类号：TP391文献标识码：A文章编号：1007-959

期刊

动态图像应用于网络媒体设计之研究

摘要：随着网络技术的发展，Adobe Flash在网络上的应用比重越来越大，而动态图像在网络媒体上表现手法成为了吸引浏览者眼球不可缺少的元素，随着人们对网络设计的需求，Flash不仅在网络媒体上被广泛应用，而且也不断的渗透到了其他的领域，如网络游戏、网络课件、网路广告等等。本文就Adobe Flash的功能及其在网络媒体中的应用进行研究。　　关键词：Adobe Flash应用；动态图像；网络媒体　

期刊

浅析软件开发中的时间管理

摘要：项目的时间管理也就是项目的进度管理，对于软件开发项目来说，项目的时间管理是控制软件开发整体时间的主要手段，本文对软件开发的项目时间管理进行深入的分析，为保证软件开发项目的如期完成提供相应的建议。　　关键词：软件开发；时间管理；进度控制　　中图分类号：TP311文献标识码：A文章编号：1007-9599 (2011) 24-0000-02　　Time Management Analysis i

期刊

课程在线学习系统的实现

摘要：以校园网为依托，推进课程信息化建设是高校教学改革的重要课题。课程在线学习系统的实现可以整合学校现有教学资源，提高其利用效率。网络化的课堂环境，使学生的学习不再受时间和空间的限制，有利于调动学生的学习积极性和培养他们的自主学习能力。　　关键词：教学资源；在线学习；现代教育技术　　中图分类号：TP311.52文献标识码：A文章编号：1007-9599 (2011) 24-0000-02　　Imp

期刊

基于Hadoop的云计算平台设计与开发

与本文相关的学术论文