论文部分内容阅读
【摘要】 本文通过分析“互联网+”时代传统企业互联网化转型,企业大数据在“存”、“管”、“用”技术支撑上面临的问题,比较关系型数据库系统与大数据技术平台的应用特点,提出了企业大数据的存储混搭架构思路。
【关键词】 大数据 关系型数据库 NoSQL 存储架构
一、引言
“互联网+”时代越来越多的企业认识到数据是企业很重要的核心资产,并开始通过信息应用来改造传统行业。许多传统企业开始探索互联网化转型之路,企业数据爆炸性增长,随之而来出现了“存”、“管”、“用”这三个方面的难题:“存”——如何解决PB 级别海量数据的存储问题?“管”——如何解决结构化、非结构化数据并存的管理问题?“用”——如何解决这种大规模复杂结构下的实时应用问题?
传统关系型数据库系统与新兴的大数据技术平台是两条技术解决路线,本文将通过对比这两种技术,为企业大数据的存储与应用提供一个技术解决思路。
二、企业大数据的组成与技术支持
企业的传统数据主要来自于业务运营支撑系统、企业管理系统等,主要是结构化数据;企业当前爆炸式增长的新数据主要来源于互联网、移动互联网上的图片、文本、音频、视频等非结构化数据;结构化传统数据和非结构化新数据一起构成了企业的大数据。目前业界对大数据还没有统一的定义,但各大研究机构与国际组织对大数据的定义都至少包含这2层意思:一是要能对大体量、多类型的数据进行快速的处理,二是在成本可接受的前提下从大数据中提取有用的价值。概括的说,企业的大数据具备“4V”的特征:超量(Volume),需要存储的数据量越来越大;多样(Variety),存储的数据类型种类越来越多;高速(Velocity),数据处理速度与应用速度要求越来越快;价值(Value),从低密度的数据中提取有价值的信息。因此,在技术层面上面临3大挑战:(1)海量数据存哪里,才能既满足高效率存储和访问的需求,又使存储成本可控制?(2)如何满足海量数据的高并发、实时动态获取和更新数据?(3)如何保障数据库系统的高可扩展性和7*24小时不间断服务的高可用性需求?目前有两条技术解决路线:一是将传统关系型数据库系统进行整合升级,如Oracle、EMC等企业设计了采用Shared-Nothing与MPP体系架构的数据库一体机作为解决方案;二是专门设计了NoSQL数据库系统,以Apache的Hadoop、IBM PureData为代表的大数据平台为主要的解决方案。
三、关系型数据库系统与大数据技术平台的比较
3.1关系型数据库如何应对大数据
工程师们对关系型数据库系统进行升级与优化,通过分库、分表,缓解数据增长压力;采用主从数据库分离、读写分离思路,缓解写压力,增强读库的可扩展性;采用主从结构Master-Slave,增强读库的可扩展性,并采用MMM(Master-Master Replication Manager for MySQL)技术来解决分布式存储问题。在产品支持上主流数据库厂商纷纷推出数据库一体机产品,如Oracle Exadata、IBM Netezza、EMC GreenPlum等。
数据库一体机的核心是SQL体系,可以兼顾企业中OLTP和OLAP两类系统的应用要求,但这条技术路线仍有瑕疵:如分库、分表受业务规则影响,维护变得十分复杂,系统数据访问层代码需要大量修改;Master-Slave架构在实时性很高的场合Slave实时性保障存在瓶颈,在高可用性上Master容易产生单点故障;MMM本身扩展性差,一次只能允许一个Master写入,只能解决有限数据量下的可用性。
3.2大数据技术如何应对大数据
相对于传统关系型数据库的行存储模式,大数据技术采用列存储模式满足海量数据的高效存储和访问要求,以NoSQL体系的非关系型数据库服务器架构应用而生。其中Hadoop是一个典型代表,海量的数据交给Hadoop处理后,Hadoop提供一个分布式文件系统(HDFS)及分布式数据库(Hbase)用来存储或部署到各个计算点上,最终在内部采取MapReduce的模式对其数据进行分布式并行计算与合并处理,然后输出处理结果。
NoSQL数据库大都只是提供了海量数据的分布式存储与基于索引的快速读取机制,对复杂Join的操作性能低下,因此对OLTP系统的支持成为它的短板。
3.3两种技术的异同点比较
从硬件集成角度上看,大数据技术与数据库一体机基本相同。两种技术最核心的区别在软件体系上,具体比较如下表:
四、企业大数据的存储架构建设思路
针对企业大数据的存储与应用需求,大数据技术与关系型数据库架构技术是相辅相成的,而不是互相替代的。它们针对不同的应用场景设计,可以相互补充与合作。
数据库一体机较适用于存储关系复杂的数据模型,如企业核心业务数据,并且需要限制为基于二维表的关系模型;同时适合进行一致性与事务性要求高的计算,以及复杂的BI计算。大数据技术则更适合于存储较简单的数据模型,并且可以不受模式的约束,因而其可存储管理的数据类型更丰富。大数据技术同时适合进行一致性与事务性要求不高的计算,如NoSQL的查询操作等,以及对超大规模海量数据的、批量的分布式并行计算。
因此,在“互联网+”时代,当前企业的大数据存储架构建设思路是采用大数据平台与关系型数据库系统混搭的架构。具体来讲:业务支撑系统仍然部署在关系型数据库上,传统关系型数据库技术还是作为企业数据仓库的主流技术,它存储与计算最主要的、有重大价值的企业关键业务数据。大数据技术可以处理企业内海量的、模型简单、类型多样的非结构化与半结构化数据,其处理结果可以被直接使用,也同时可以被当成是新的输入存储到企业级数据仓库中,这时大数据技术相当于是面向大数据源的新的ETL手段。
五、结束语
进入“互联网+”时代,在一个信息爆炸的环境下,企业更需要搭建合适的企业大数据存储架构来存储好、管理好和使用好这些数据,以真正将企业的数据资产变成企业的核心竞争力。
【关键词】 大数据 关系型数据库 NoSQL 存储架构
一、引言
“互联网+”时代越来越多的企业认识到数据是企业很重要的核心资产,并开始通过信息应用来改造传统行业。许多传统企业开始探索互联网化转型之路,企业数据爆炸性增长,随之而来出现了“存”、“管”、“用”这三个方面的难题:“存”——如何解决PB 级别海量数据的存储问题?“管”——如何解决结构化、非结构化数据并存的管理问题?“用”——如何解决这种大规模复杂结构下的实时应用问题?
传统关系型数据库系统与新兴的大数据技术平台是两条技术解决路线,本文将通过对比这两种技术,为企业大数据的存储与应用提供一个技术解决思路。
二、企业大数据的组成与技术支持
企业的传统数据主要来自于业务运营支撑系统、企业管理系统等,主要是结构化数据;企业当前爆炸式增长的新数据主要来源于互联网、移动互联网上的图片、文本、音频、视频等非结构化数据;结构化传统数据和非结构化新数据一起构成了企业的大数据。目前业界对大数据还没有统一的定义,但各大研究机构与国际组织对大数据的定义都至少包含这2层意思:一是要能对大体量、多类型的数据进行快速的处理,二是在成本可接受的前提下从大数据中提取有用的价值。概括的说,企业的大数据具备“4V”的特征:超量(Volume),需要存储的数据量越来越大;多样(Variety),存储的数据类型种类越来越多;高速(Velocity),数据处理速度与应用速度要求越来越快;价值(Value),从低密度的数据中提取有价值的信息。因此,在技术层面上面临3大挑战:(1)海量数据存哪里,才能既满足高效率存储和访问的需求,又使存储成本可控制?(2)如何满足海量数据的高并发、实时动态获取和更新数据?(3)如何保障数据库系统的高可扩展性和7*24小时不间断服务的高可用性需求?目前有两条技术解决路线:一是将传统关系型数据库系统进行整合升级,如Oracle、EMC等企业设计了采用Shared-Nothing与MPP体系架构的数据库一体机作为解决方案;二是专门设计了NoSQL数据库系统,以Apache的Hadoop、IBM PureData为代表的大数据平台为主要的解决方案。
三、关系型数据库系统与大数据技术平台的比较
3.1关系型数据库如何应对大数据
工程师们对关系型数据库系统进行升级与优化,通过分库、分表,缓解数据增长压力;采用主从数据库分离、读写分离思路,缓解写压力,增强读库的可扩展性;采用主从结构Master-Slave,增强读库的可扩展性,并采用MMM(Master-Master Replication Manager for MySQL)技术来解决分布式存储问题。在产品支持上主流数据库厂商纷纷推出数据库一体机产品,如Oracle Exadata、IBM Netezza、EMC GreenPlum等。
数据库一体机的核心是SQL体系,可以兼顾企业中OLTP和OLAP两类系统的应用要求,但这条技术路线仍有瑕疵:如分库、分表受业务规则影响,维护变得十分复杂,系统数据访问层代码需要大量修改;Master-Slave架构在实时性很高的场合Slave实时性保障存在瓶颈,在高可用性上Master容易产生单点故障;MMM本身扩展性差,一次只能允许一个Master写入,只能解决有限数据量下的可用性。
3.2大数据技术如何应对大数据
相对于传统关系型数据库的行存储模式,大数据技术采用列存储模式满足海量数据的高效存储和访问要求,以NoSQL体系的非关系型数据库服务器架构应用而生。其中Hadoop是一个典型代表,海量的数据交给Hadoop处理后,Hadoop提供一个分布式文件系统(HDFS)及分布式数据库(Hbase)用来存储或部署到各个计算点上,最终在内部采取MapReduce的模式对其数据进行分布式并行计算与合并处理,然后输出处理结果。
NoSQL数据库大都只是提供了海量数据的分布式存储与基于索引的快速读取机制,对复杂Join的操作性能低下,因此对OLTP系统的支持成为它的短板。
3.3两种技术的异同点比较
从硬件集成角度上看,大数据技术与数据库一体机基本相同。两种技术最核心的区别在软件体系上,具体比较如下表:
四、企业大数据的存储架构建设思路
针对企业大数据的存储与应用需求,大数据技术与关系型数据库架构技术是相辅相成的,而不是互相替代的。它们针对不同的应用场景设计,可以相互补充与合作。
数据库一体机较适用于存储关系复杂的数据模型,如企业核心业务数据,并且需要限制为基于二维表的关系模型;同时适合进行一致性与事务性要求高的计算,以及复杂的BI计算。大数据技术则更适合于存储较简单的数据模型,并且可以不受模式的约束,因而其可存储管理的数据类型更丰富。大数据技术同时适合进行一致性与事务性要求不高的计算,如NoSQL的查询操作等,以及对超大规模海量数据的、批量的分布式并行计算。
因此,在“互联网+”时代,当前企业的大数据存储架构建设思路是采用大数据平台与关系型数据库系统混搭的架构。具体来讲:业务支撑系统仍然部署在关系型数据库上,传统关系型数据库技术还是作为企业数据仓库的主流技术,它存储与计算最主要的、有重大价值的企业关键业务数据。大数据技术可以处理企业内海量的、模型简单、类型多样的非结构化与半结构化数据,其处理结果可以被直接使用,也同时可以被当成是新的输入存储到企业级数据仓库中,这时大数据技术相当于是面向大数据源的新的ETL手段。
五、结束语
进入“互联网+”时代,在一个信息爆炸的环境下,企业更需要搭建合适的企业大数据存储架构来存储好、管理好和使用好这些数据,以真正将企业的数据资产变成企业的核心竞争力。