大数据走向融合

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:dulizhi123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  大数据跨过了近几年的炒作周期后,即将度过以落地实践为核心的2014年。2015年,大数据将往哪个方向发展?近日,星环信息科技(上海)有限公司CTO孙元浩从基础技术的角度预测了大数据的发展趋势。
  趋势一:混合架构将逐渐消失
  当初,Hadoop的诞生是为了更方便地处理非结构化数据和半结构化数据,但是处理结构化数据的时候功能就显得不够完整。用户还需要使用数据库或者MPP(大规模并行处理)数据库,协助Hadoop处理结构化的数据。另外,Hadoop是为处理几百TB和几PB数据而设计的,但是,当数据量小于10TB的时候,Hadoop的处理性能往往还不如MPP数据库。
  为解决这些问题,用户往往会考虑混合架构的部署方式:把实时数据放到MPP数据库里,把历史数据放到Hadoop里;或者把大部分数据放在Hadoop里,小部分数据放到MPP数据库里进行计算。
  过去三年,Hadoop发展非常迅猛,很多公司快速启动了SQL on Hadoop的开发,其性能也有很大提升。目前,市场上在Hadoop系统里原生开发的SQL引擎技术主要有4种:第一种是Impala,采用类似于MPP的引擎;第二种是Tez,吸收了Spark的一些设计思想;第三种是Transwarp Inceptor,基于Spark开发的SQL引擎;第四种是Spark SQL和Drill。
  随着SQL on Hadoop技术的快速发展,SQL完整程度的大幅提高和性能的提升,孙元浩认为混合架构正在逐渐消失。做出这样的预测是因为,过去MPP数据库的3个优势随着SQL on Hadoop的成熟逐渐被削弱。第一,传统MPP数据库对SQL的支持相对完整,而现在,Hadoop对SQL的支持程度已经接近MPP数据库。第二,传统MPP数据处理性能高,而现在,Hadoop的性能已经超过MPP数据库数倍。第三,传统MPP数据库上外延工具非常丰富,而现在,很多传统BI厂商都已经支持Hadoop,一些新兴创业公司都已经在Hadoop上开发了全新的BI工具,Hadoop系统上的外延工具也越来越丰富,Hadoop生态系统将很快超越传统MPP数据库。
  未来,Hadoop将逐渐取代MPP数据库,用户将逐渐不需要使用混合架构,不需要在不同数据库之间迁移。MPP数据库将逐渐消失并慢慢地融入Hadoop。用户的数据量无论大小将全部都可以在Hadoop上处理,真正做到无限的线性扩展。
  趋势二:固态盘将替代内存
  随着硬件技术的发展,孙元浩发现,作为缓存,内存可以被大容量的SSD(固态硬盘)取代。内存读取数据的速度是磁盘的百倍甚至千倍,但是SSD 的性能已经开始接近内存了。同时,SSD的价格也在迅速下降。今天,在中国市场可以以1万至2万元的价格购买到1TB容量的SSD。孙元浩认为,用SSD替代内存是当前比较好的方案。
  Hadoop2.6中提出一个概念叫Storage Tier(存储层)。它在HDFS(分布式文件系统)上提供三层存储:磁盘层、SSD层和内存层。以大小为128MB的数据块为单位,用户可以把文件放在指定的层,以此来提升数据的存取速度。但是,用户很快发现事情没有那么简单。因为,Hadoop最早是为大容量低速磁盘而设计的,SSD比普通磁盘顺序读写性能高10倍,它的随机访问性能是磁盘的1000倍,如果不能利用随机访问的性能优势,提升的性能不会像硬件指标这么显著。
  因此,孙元浩认为,基于磁盘读写的Hadoop在2015年将慢慢开始为SSD做优化,未来会有更多的优化专门针对SSD。另外,内存数据库厂商将开始感受到内存不足的瓶颈,SSD将成为内存最理想的替代品。
  趋势三:实时大数据得到更多关注
  随着传感器网络、物联网的发展,数据产生的速度越来越快,使得实时大数据的技术开始得到更多的关注。
  到今天为止,没有哪个技术既能处理实时数据又能处理大量历史数据。孙元浩表示,针对实时数据和历史数据的处理,Nathan Marz提出了Lambda架构(一种基于MapReduce和Storm建立的流处理应用)。实时数据进入一个流处理系统进行检测分析,历史数据在Hadoop上进行分析,然后将两种数据分析的结果再进行融合,应用程序可以访问融合之后的数据库。
  但是,这种混合架构还存在3个问题:第一,实时数据的流处理系统处理完之后就把数据丢弃了,只留下分析结果,用户不能对实时数据进行随机查询;第二,把实时数据和历史数据分离后,怎么形成统一的视图,最后怎么拼接起来;第三,融合两种分析结果的数据可以完成快速查询但不能做复杂的统计分析和数据挖掘。
  Druid项目的出现不仅解决了快速采集的问题,还化解了统一视图的问题:把实时数据和历史数据全部拼接起来制成一张视图,把实时数据离线状态下收集起来拼成一张历史视图。但是,Druid项目还没能解决复杂的统计分析和数据挖掘的问题。
  孙元浩指出,比较理想的架构是全量数据经过流处理以后直接进入一个数据库。这个数据库可以完整地把实时数据和历史数据拼接起来,基于这些数据既可以进行高速查询又能进行迭代分析。这样,IT人员可以省去维护两套架构的麻烦,而且既能对实时数据进行分析,又能对历史数据进行分析。
  趋势四:云计算与大数据终将融合
  最近一两年,虚拟化技术的快速发展不亚于一场新的技术革命。首先,轻量级Linux Container(简称LXC,一种内核虚拟化技术)的出现,Container(容器)之间可以做资源隔离,这使得虚拟机变得非常轻量级。为此,Docker公司开发了一个工具,它让用户创建单个容器或者应用时迁移起来更加容易。但是,当创建多个容器或应用时,用户迁移起来还是会觉得很困难。此时,谷歌的一个开源项目Kubernetes出现了。它简化了用户创建Hadoop集群和传统应用,提供多容器集群的部署和一些基础服务,例如一些调度服务。
  2013年,Hadoop2.0资源管理方面一个革命性的框架Yarn(一种新的MapReduce框架)诞生了。Yarn把资源管理放在最底层,在其框架上可以运行多种计算框架。在应用的过程中,用户发现Yarn对内存/磁盘/IO的资源隔离做得不够好。为此,Hortonworks公司尝试把谷歌的Kubernetes作为Yarn的应用管理器,用Docker(一种开源的应用容器引擎)进行资源调度。同时,Mesosphere公司以Mesos(一种集群管理器)计算框架为资源调度核心,以Docker为容器的管理工具,开发了一套分布式资源管理框架,并提出了数据中心操作系统的概念。
  孙元浩指出,数据中心操作系统可以分三层。最底层与操作系统内核的功能一样,可以快速地创建、释放计算资源,实现对CPU/网络/内存/存储的管理。中间层是在最底层的基础上继续加一些基础服务。最上面一层则提供平台服务,可以创建和部署Hadoop、Spark等应用。
  根据数据中心操作系统的概念,目前市场上主要有两大技术方向。第一个技术方向是把Yarn作为资源调度的基础,Kubernetes作为运行在Yarn上的一个应用框架,而且Kubernetes与Yarn并列在同一层。另外一个技术方向是把调度器抽象出来作为插件,例如Yarn和Mesos都可以作为Kubernetes的调度器,当然也可以实现自己的调度程序,使用Docker或者CoreOS(一种基于Linux 内核的轻量级操作系统)进行容器管理,而Hadoop等分布式服务运行在Kubernetes之上。第二个技术对底层能够提供资源隔离和管理,对最上层能够提供各种服务。孙元浩认为,第二个技术方向可能是明年的主流趋势。
其他文献
作为加快产品创新的多学科仿真解决方案的领跑者,MSC软件公司近日宣布, 中国航天一院十八所使用MSC公司的Adams、SimXpert、Marc等相关软件解决工程问题,提高和优化了产品设计。  中国航天一院十八所的研发中心使用了MSC公司的SimXpert软件和Adams软件进行结构强度与动力学分析,并联合应用两个软件对伺服机构齿轮传动过程中出现的碰撞接触进行分析,取得了良好效果。同时,一院十八所
1954年,被誉为“计算机之父”、“人工智能之父”的阿兰·图灵发表了一篇名为《机器能思考吗?》的论文,开启一门新学科——人工智能,如今已过去59年。在过去的半个多世纪里,可能连阿兰·图灵也预想不到,人工智能产品的开发、普及速度会如此迅速。连比尔·盖茨都撰文预言,机器人将会再现计算机产业的快速崛起之路,并在不远的未来彻底改变人类的生产和生活方式。而目前,工业机器人已在全球广泛应用与制造业,尤其是汽车
还记得去年8·15电商竞争价格大战吗?如果你是某电商CEO,你还会采用这样的竞争战略吗?变化是永恒的主题,企业管理不能一成不变。在大数据时代,电商采用价格战是下策,能够掌控基于大数据战略的企业管理将有助于你超越现有的CEO。  成本领先战略、差异化战略、集中化战略是企业在市场竞争中可选取的三大战略。在信息大爆炸时代,第四种竞争战略——大数据战略成为原三大竞争战略的支撑。  大数据变革企业决策  传
外部信息整合、内部优化、后台管理——Aspect打造了一个从多个渠道收集用户信息并进行有效分析、优化人员配置和系统管理、打通核心业务和流程的整体平台,由内而外地提高企业运作效率。  始于呼叫中心业务,Aspect已经在用户信息收集和分析上积累了丰富的经验。如今,用户数据来源的扩展和延伸,让Aspect有了新的发展机会。  “呼叫中心一直是与业务、与客户相关数据的重要来源,Aspect提供的基于呼叫
简化开发、敏捷应变、云端延展
赛门铁克公司大中国区总裁吴锡源近日在接受记者采访时阐述了2012年存储及数据管理市场可能出现的三大热点。  热点一:物理环境与虚拟环境统一管理  虚拟化技术最初被应用于企业的一些非关键性应用中。但是随着虚拟化技术的成熟度不断提高以及用户接受度不断提高,金融、医疗等行业的一些用户已经把虚拟化技术应用于一些关键业务中。《信息周刊》的一项调查显示:当前,服务器虚拟化和存储虚拟化技术的应用是最成熟的,分别
2013年,广电运营商关注的焦点,已从基础设施建设转移到如何尽快完成新媒体角色的转换,成就新业态、创造新市场。技术的融合、传播渠道的融合、内容的融合、终端的融合,正在驱动广电行业对业务平台进行再定义。在今年的CCBN (中国国际广播电视信息网络展览会)上,新媒体平台已经出现了三大变化。  机顶盒“IPTV OTT”化  在“融合”的背景下,机顶盒的“IPTV OTT(在此泛指基于开放互联网的服务)
IBM,20年来再次站在十字路口。  随着它连续10个季度没有达到华尔街的预期,硬件、软件、服务三大主营业务相继出现缩水,所有人都意识到IBM又将面临转型,但将转向何方?20年前,郭士纳曾经引领IBM向高价值服务转型,从而挽救了濒临解体的IBM,但在新的时代谁来破解IBM的转型迷局?  不可否认,作为IT风向标,IBM曾经是无数企业效仿的对象,它提出的每一个理念似乎都能引领下一个市场热点。但正因为
在美国英巴卡迪诺科技有限公司(下文简称英巴卡迪诺)成立20周年之际,其亚太区的高级总监Malcolm Groves在北京接受了记者采访。作为向软件开发者和数据库专业人士提供专业工具的厂商,英巴卡迪诺有许多令人耳熟能详的产品,比如在开发工具领域的C Builder、Delphi以及在数据库领域的ER/Studio、DBAritisan。  在开发领域,C Builder、Delphi一直关注Wi
一个开发团队制定了一份编码规范,领导要求部门内的员工都要执行。  孙杰参与了规范的讨论过程,而王超没有参加。当有疑问的时候,王超有时会去找同事或者领导问清楚,有的时候则会抱怨:“怎么提这么个要求?总给开发工作增加麻烦?”  那么孙杰呢?他也并不是说对每一条规定都了如指掌、运用自如,但因为参与了编码规范出台前的讨论过程,他认为自己有责任为这个规范做解释,或者应当想办法。孙杰甚至认为,抱怨或者否定这个