论文部分内容阅读
大数据将取代传统商业智能吗?在大数据声名鹊起而传统商业智能声音似乎逐渐式微的当下,我们提出这个问题并非毫无来由。尽管目前关于何谓大数据还没有统一的说法,但是,大数据是以海量数据的处理和分析,发现数据背后的本质,增加企业洞察力为目的而诞生的,而这与商业智能的目的基本一致,从这个意义上说,两者之间就存在着一定的竞争关系。当我们把“大数据是否将取代传统商业智能”话题发布在《计算机世界》官方微博和计世网上的时候,的确引起了业界的广泛探讨(微博调查结果参见图1)。这在一定程度上也反映了业界对大数据与商业智能之间关系的模糊认识。
草根与贵族之争
尽管随着技术的不断进步,商业智能日益平民化,如今基于Excel表也能在一定程度上实现传统商业智能的部分功能。但是,商业智能最精典的架构依然以数据仓库为基础,通过搭建数据仓库(常常是专用设备),利用ETL工具进行数据抽取、转化,建模,然后通过报表和驾驶舱等形式进行结果展示,整个过程每个环节都投资不菲而且耗时。因此,很长时间以来,商业智能被认为大企业的专有,而被称为是贵族。相对而言,大数据主要用于一些互联网企业,采用通用硬件设备加上开源软件实现,成本低而被一些人认为是草根。因此,这场大数据与商业智能之争也被看成是“草根”与“贵族”之争。那么,当“草根”出身的大数据遇到了“贵族”商业智能会发生什么变化?是否会抢占商业智能的市场?
“目前看来,大数据还抢不了商业智能的市场,无论从技术成熟度还是生态系统来说。”SAP亚太区数据库解决方案技术总监卢东明告诉计算机世界记者,商业智能这个概念自1992年兴起后的20多年中,已经在IT界几乎家喻户晓、妇孺皆知了。这个概念的知名度是一个巨大的资产,颠覆一个已有20多年存在且仍有生命力的技术是非常不容易而缓慢的过程。
而就生态系统而言,历经近20年的发展,商业智能从最初朦胧的概念到如今丰富的产品系列和解决方案组合,特别是数据库、数据仓库产品的组合在用户中已经留下很深的烙印。此外,还有各种各样围绕商业智能产生的数据采集、数据处理、数据存储、数据分析、数据可视化软件,如此完善的生态系统是现阶段大数据所无法媲美的。
基于上述原因,卢东明更愿意把大数据作为传统数据库、数据仓库以及商业智能这些概念的外延和扩展,认为相互之间不存在取代的关系,也并不是互斥的关系,他倾向于把大数据归为实现商业智能的一种技术手段。“打个比方吧:如果BI是个听诊器的话,你说X光、核磁共振和它啥关系?”
实际上,在我们的微博调查中,持类似观点的基本占绝大多数,特别是业内人士。北京殷塞信息技术有限公司执行董事兼首席架构师朱东也是其中之一,在朱东看来,大数据就是一种分布式存储和处理技术,用来处理那些“分散”和“难处理的数据”,和商业智能不在一个层面上,本质上大数据只是商业智能的一个新数据源。从这一点上也反映出业界对大数据的概念至今还缺乏统一的认识。(本文所说的大数据是广义的大数据,涵盖对海量数据特别是非结构化数据从数据采集、存储、分析到最终结果呈现的整个过程中涉及的所有技术。正是基于此,这两个概念才有可比性。)
当然,也有人不这么看。特别是在一些用户看来,两者的关系可能就简单得多了。
“从用户观点看,只有草根打法和贵族打法的差别,没有大数据和BI的差别。”中文信息处理及金融IT知名专家、上海证券交易所白硕在其微博中也对我们提出的“大数据将取代传统商业智能”的话题发表了自己的意见。
跑在不同轨道上的列车
抛开商业智能与大数据之间的争论不谈,目前这两者各自都有其擅长的领域则是不争的事实,而且看起来区别实在太大,更像是偶有交叉但行驶在不同轨道上的两辆列车。
众所周知,当今的数据资产基本可以归为三类,即企业内部的业务数据、公共服务机构的数据(如物联网相关数据),以及与互联网相关的数据(如网络日志、微博等)。
“在这三类数据中,企业内部业务数据和部分公共服务器的分析和处理基本是传统商业智能的天下,而互联网数据的处理则是大数据技术的天下。两者的重合度并不大。”Informatica中国区首席产品顾问介绍说。
南大通用数据技术有限公司董事长助理李航表达了同样的观点。他认为,大数据和传统数据到目前为止还是泾渭分明的两个不同阵营,现实中绝大部分企业的商业分析都基于传统的商业智能来进行,还不会因为大数据而摒弃原来的传统分析方法。因此,不存在所谓的市场冲击。
“大数据相关技术(如Hadoop)主要用来存储和处理非结构化数据,但是非结构化的数据想要被充分认知和分析,转化为结构化数据之后处理不失为一种有效方法。比如,将大数据以及聚合数据输入传统商业智能系统中去做分析与展现,最终形成报告,出分析结果。”李航说。
李航的观点在传统数据库和数据仓库厂商从业人士中很典型,基本代表了大多数传统传统数据库、数据仓库厂商的观点。基于这样的认识,它们最常推荐的一个应用场景是,将大数据存储在Hadoop,利用Hadoop来初步处理,然后将其转化为结构化数据存储数据仓库中,再利用现有的传统商业智能平台进行数据分析和预测,提供报表,或者成为企业驾驶舱中的一部分。而那些率先引入大数据技术的互联网企业却很少使用这些方法,这些缺乏传统商业智能基础的企业从一开始就将自己的解决方案完全架构在Hadoop等大数据技术上,直接从Hadoop中提出数据,利用自己定制的MapReduce,完成数据的分析和展现。比如,提供网站精准推荐服务的百分点就是这样使用Hadoop挖掘访客点击数据的。
显然,用户不同的技术储备决定了技术方案的不同选择,而厂商不同的出身也决定了其不同技术发展路线。在传统商业智能厂商看来,商业智能和大数据都不可偏废。IBM新兴市场部大数据中心总监王晓梅就多次强调,在IBM大数据的战略中,传统的关系型数据、结构化的数据仍旧是IBM大数据中非常重要的一部分,其数据仓库也仍旧是整个大数据平台不可或缺的重要一部分。 技术上的融合
尽管在大多数业内人士看来,在数据分析市场上大数据与商业智能更像两个行驶在不同轨道上的列车,并肩前行同时偶有交叉,但是在技术上,同为数据分析、提高洞察力而存在的两种技术之间早就开始了交流和互动。比如,为应对海量数据带来的挑战,商业智能相关产品纷纷在性能方面做文章。内存计算、列式存储等技术就被广泛应用到传统的数据处理相关产品和技术中,今天我们在IBM、Oracle、SAP等相关产品上都可以看到它们的踪迹。比如,SAP正在大力推广的HANA就是典型代表。同样,专注在数据分析层面的SAS也在其新一代数据分析工具中引入名为HPA的高性能分析引擎,主打的同样也是高性能。
除此之外,那些提供传统数据库和数据仓库的主流供应商,包括甲骨文、IBM、SAP(收购了Sybase)、微软等都在其数据库和数据仓库提供各种连接器,支持对Hadoop数据进行分析。比如,甲骨文推出了软硬一体的大数据库机,其中内置了与Oracle数据库的连接器来与Hadoop进行数据通信。在SAP Sybase最新一代数据仓库Sybase IQ 15.4中也同样配备了很多接口。通过这些接口可以同时访问Sybase IQ和Hadoop,或者用一个标准的SQL来访问Hadoop的数据。
“适者生存,从结构化为主的‘小数据’到非结构化为主的‘大数据’,大量连接器的出现其实已经表明了数据库厂商的姿态,大数据扩充了数据的外延,也扩大了数据库的应用空间。目前还没有一个数据库完美地解决‘小数据’和‘大数据’的混用问题,接口就是目前最好的阶段性技术。”SAP卢东明告诉计算机世界记者,而从技术发展的角度看,数据库、数据仓库产品必须自我发展,以适应大数据带来的挑战,一如商业智能的过去一样。
众多周知,在过去的20多年,传统商业智能从行式存储数据库转为列式存储数据库,磁盘数据库转向内存数据库,软件架构也从SMP转为MPP,数据仓库实施从延时多维变为实时抽取等。这些转变的背后,其推动力就是用户对数据处理和分析日益增加的需求。
相对于比较成熟的传统商业智能,出现不久的大数据其需要成长和完善的地方更多。“效率、可靠性和安全性是一个成熟的数据处理平台所必须具备的,对于大数据而言,这也是它首先需要解决的。”Informatica大中国区首席产品顾问但斌告诉计算机世界记者,而在这些方面传统BI已经走过了近20年的发展历程,可以提供很多值得借鉴的技术和方法论。
另一方面,大数据在技术上也有待突破,特别是在微博、微信等语义分析方面,只有这些技术实现了突破,大数据的市场才会真正从互联网领域走向传统领域。
其实,以Hadoop为代表的大数据相关技术也在做出一些适应性变化。比如,Hive的出现,就是为了方便人们像使用SQL数据库一样,来直接调用Hadoop中的数据;而NoSQL的出现本质上也是借鉴传统SQL数据库来解决非结构化数据的管理问题。
商业智能3.0
实际上,当我们还在探讨大数据与传统商业智能之间的关系时候,国外已经有人提出了BI 3.0的概念(参见图2), 将大数据也作为商业智能的一个部分。在这一概念体系中,传统商业智能被称为BI 1.0,其与大数据结合后称为BI 2.0,而在结合移动数据后就成为了BI 3.0。与之相似,在国内也有人提出类似的观点,颇为有趣的是,这种观点将商业智能归到了大数据之下,称大数据 3.0。
比如,天云科技首席数据科学家郑毅就将传统商业智能称做大数据的1.0,此时处理的主要是企业内部流转的业务数据,服务的也是企业内部;下一阶段将是大数据2.0,此时数据不只在企业内部发挥价值,还会用这些数据向外去创造价值;大数据最终会走向3.0,那时数据能够对内、对外产生价值,同时还能在不同组织间自由流动,形成整个社会的数据基础设施。
显然,出身的不同决定了其对两个概念的不同理解:来自传统商业智能领域者将大数据当成一个新增的数据源;而大数据一方则认为传统商业智能只是其领域中处理少量数据时的一种方法。不过,对于用户而言更希望能获得一种整体的解决方案,即不仅要能收集、处理和分析企业内部的业务数据,还希望能引入互联网上的网络浏览、微博、微信等非结构化数据。除此之外,还希望能结合移动设备的位置信息,这样企业就可以形成一个全面、完整的数据价值发展平台。毕竟,无论是大数据还是商业智能,目的都是为分析服务的,数据全面整合起来,更有利于发现新的商业机会。这也正是“BI 3.0”或者“Big Data 3.0”的最终目的。
实际上,用户对数据分析相关工具和界面的融合需求也已经开始出现,比如,在商业智能应用最为普及的银行中,就希望在原来仅仅为客户提供支付服务之外,还能知道更多客户的购买信息(比如,物品清单),从而可以更为充分地了解客户,为其下一步的精准营销奠定基础。
过往的历史表明,技术的活力在于不断创新。对于已经存在了20多年的相对比较成熟的商业智能而言,早就形成了一个相对完善的生态系统。更为重要的是,大量企业在传统商业智能方面已经进行了大量投资,特别是企业里很多业务其实已是围绕这样的系统来开展的时候,即使真有一种可替代的技术出现,这种替换也不会很快发生,更何况从目前来看大数据也不是这样一种技术。基于这样一个认识,我们认为,在未来相当长一段时间,大数据和传统商业智能将在相互促进中竞争,在竞争中共同进步,最终走向“BI 3.0”或者“Big Data 3.0”。
草根与贵族之争
尽管随着技术的不断进步,商业智能日益平民化,如今基于Excel表也能在一定程度上实现传统商业智能的部分功能。但是,商业智能最精典的架构依然以数据仓库为基础,通过搭建数据仓库(常常是专用设备),利用ETL工具进行数据抽取、转化,建模,然后通过报表和驾驶舱等形式进行结果展示,整个过程每个环节都投资不菲而且耗时。因此,很长时间以来,商业智能被认为大企业的专有,而被称为是贵族。相对而言,大数据主要用于一些互联网企业,采用通用硬件设备加上开源软件实现,成本低而被一些人认为是草根。因此,这场大数据与商业智能之争也被看成是“草根”与“贵族”之争。那么,当“草根”出身的大数据遇到了“贵族”商业智能会发生什么变化?是否会抢占商业智能的市场?
“目前看来,大数据还抢不了商业智能的市场,无论从技术成熟度还是生态系统来说。”SAP亚太区数据库解决方案技术总监卢东明告诉计算机世界记者,商业智能这个概念自1992年兴起后的20多年中,已经在IT界几乎家喻户晓、妇孺皆知了。这个概念的知名度是一个巨大的资产,颠覆一个已有20多年存在且仍有生命力的技术是非常不容易而缓慢的过程。
而就生态系统而言,历经近20年的发展,商业智能从最初朦胧的概念到如今丰富的产品系列和解决方案组合,特别是数据库、数据仓库产品的组合在用户中已经留下很深的烙印。此外,还有各种各样围绕商业智能产生的数据采集、数据处理、数据存储、数据分析、数据可视化软件,如此完善的生态系统是现阶段大数据所无法媲美的。
基于上述原因,卢东明更愿意把大数据作为传统数据库、数据仓库以及商业智能这些概念的外延和扩展,认为相互之间不存在取代的关系,也并不是互斥的关系,他倾向于把大数据归为实现商业智能的一种技术手段。“打个比方吧:如果BI是个听诊器的话,你说X光、核磁共振和它啥关系?”
实际上,在我们的微博调查中,持类似观点的基本占绝大多数,特别是业内人士。北京殷塞信息技术有限公司执行董事兼首席架构师朱东也是其中之一,在朱东看来,大数据就是一种分布式存储和处理技术,用来处理那些“分散”和“难处理的数据”,和商业智能不在一个层面上,本质上大数据只是商业智能的一个新数据源。从这一点上也反映出业界对大数据的概念至今还缺乏统一的认识。(本文所说的大数据是广义的大数据,涵盖对海量数据特别是非结构化数据从数据采集、存储、分析到最终结果呈现的整个过程中涉及的所有技术。正是基于此,这两个概念才有可比性。)
当然,也有人不这么看。特别是在一些用户看来,两者的关系可能就简单得多了。
“从用户观点看,只有草根打法和贵族打法的差别,没有大数据和BI的差别。”中文信息处理及金融IT知名专家、上海证券交易所白硕在其微博中也对我们提出的“大数据将取代传统商业智能”的话题发表了自己的意见。
跑在不同轨道上的列车
抛开商业智能与大数据之间的争论不谈,目前这两者各自都有其擅长的领域则是不争的事实,而且看起来区别实在太大,更像是偶有交叉但行驶在不同轨道上的两辆列车。
众所周知,当今的数据资产基本可以归为三类,即企业内部的业务数据、公共服务机构的数据(如物联网相关数据),以及与互联网相关的数据(如网络日志、微博等)。
“在这三类数据中,企业内部业务数据和部分公共服务器的分析和处理基本是传统商业智能的天下,而互联网数据的处理则是大数据技术的天下。两者的重合度并不大。”Informatica中国区首席产品顾问介绍说。
南大通用数据技术有限公司董事长助理李航表达了同样的观点。他认为,大数据和传统数据到目前为止还是泾渭分明的两个不同阵营,现实中绝大部分企业的商业分析都基于传统的商业智能来进行,还不会因为大数据而摒弃原来的传统分析方法。因此,不存在所谓的市场冲击。
“大数据相关技术(如Hadoop)主要用来存储和处理非结构化数据,但是非结构化的数据想要被充分认知和分析,转化为结构化数据之后处理不失为一种有效方法。比如,将大数据以及聚合数据输入传统商业智能系统中去做分析与展现,最终形成报告,出分析结果。”李航说。
李航的观点在传统数据库和数据仓库厂商从业人士中很典型,基本代表了大多数传统传统数据库、数据仓库厂商的观点。基于这样的认识,它们最常推荐的一个应用场景是,将大数据存储在Hadoop,利用Hadoop来初步处理,然后将其转化为结构化数据存储数据仓库中,再利用现有的传统商业智能平台进行数据分析和预测,提供报表,或者成为企业驾驶舱中的一部分。而那些率先引入大数据技术的互联网企业却很少使用这些方法,这些缺乏传统商业智能基础的企业从一开始就将自己的解决方案完全架构在Hadoop等大数据技术上,直接从Hadoop中提出数据,利用自己定制的MapReduce,完成数据的分析和展现。比如,提供网站精准推荐服务的百分点就是这样使用Hadoop挖掘访客点击数据的。
显然,用户不同的技术储备决定了技术方案的不同选择,而厂商不同的出身也决定了其不同技术发展路线。在传统商业智能厂商看来,商业智能和大数据都不可偏废。IBM新兴市场部大数据中心总监王晓梅就多次强调,在IBM大数据的战略中,传统的关系型数据、结构化的数据仍旧是IBM大数据中非常重要的一部分,其数据仓库也仍旧是整个大数据平台不可或缺的重要一部分。 技术上的融合
尽管在大多数业内人士看来,在数据分析市场上大数据与商业智能更像两个行驶在不同轨道上的列车,并肩前行同时偶有交叉,但是在技术上,同为数据分析、提高洞察力而存在的两种技术之间早就开始了交流和互动。比如,为应对海量数据带来的挑战,商业智能相关产品纷纷在性能方面做文章。内存计算、列式存储等技术就被广泛应用到传统的数据处理相关产品和技术中,今天我们在IBM、Oracle、SAP等相关产品上都可以看到它们的踪迹。比如,SAP正在大力推广的HANA就是典型代表。同样,专注在数据分析层面的SAS也在其新一代数据分析工具中引入名为HPA的高性能分析引擎,主打的同样也是高性能。
除此之外,那些提供传统数据库和数据仓库的主流供应商,包括甲骨文、IBM、SAP(收购了Sybase)、微软等都在其数据库和数据仓库提供各种连接器,支持对Hadoop数据进行分析。比如,甲骨文推出了软硬一体的大数据库机,其中内置了与Oracle数据库的连接器来与Hadoop进行数据通信。在SAP Sybase最新一代数据仓库Sybase IQ 15.4中也同样配备了很多接口。通过这些接口可以同时访问Sybase IQ和Hadoop,或者用一个标准的SQL来访问Hadoop的数据。
“适者生存,从结构化为主的‘小数据’到非结构化为主的‘大数据’,大量连接器的出现其实已经表明了数据库厂商的姿态,大数据扩充了数据的外延,也扩大了数据库的应用空间。目前还没有一个数据库完美地解决‘小数据’和‘大数据’的混用问题,接口就是目前最好的阶段性技术。”SAP卢东明告诉计算机世界记者,而从技术发展的角度看,数据库、数据仓库产品必须自我发展,以适应大数据带来的挑战,一如商业智能的过去一样。
众多周知,在过去的20多年,传统商业智能从行式存储数据库转为列式存储数据库,磁盘数据库转向内存数据库,软件架构也从SMP转为MPP,数据仓库实施从延时多维变为实时抽取等。这些转变的背后,其推动力就是用户对数据处理和分析日益增加的需求。
相对于比较成熟的传统商业智能,出现不久的大数据其需要成长和完善的地方更多。“效率、可靠性和安全性是一个成熟的数据处理平台所必须具备的,对于大数据而言,这也是它首先需要解决的。”Informatica大中国区首席产品顾问但斌告诉计算机世界记者,而在这些方面传统BI已经走过了近20年的发展历程,可以提供很多值得借鉴的技术和方法论。
另一方面,大数据在技术上也有待突破,特别是在微博、微信等语义分析方面,只有这些技术实现了突破,大数据的市场才会真正从互联网领域走向传统领域。
其实,以Hadoop为代表的大数据相关技术也在做出一些适应性变化。比如,Hive的出现,就是为了方便人们像使用SQL数据库一样,来直接调用Hadoop中的数据;而NoSQL的出现本质上也是借鉴传统SQL数据库来解决非结构化数据的管理问题。
商业智能3.0
实际上,当我们还在探讨大数据与传统商业智能之间的关系时候,国外已经有人提出了BI 3.0的概念(参见图2), 将大数据也作为商业智能的一个部分。在这一概念体系中,传统商业智能被称为BI 1.0,其与大数据结合后称为BI 2.0,而在结合移动数据后就成为了BI 3.0。与之相似,在国内也有人提出类似的观点,颇为有趣的是,这种观点将商业智能归到了大数据之下,称大数据 3.0。
比如,天云科技首席数据科学家郑毅就将传统商业智能称做大数据的1.0,此时处理的主要是企业内部流转的业务数据,服务的也是企业内部;下一阶段将是大数据2.0,此时数据不只在企业内部发挥价值,还会用这些数据向外去创造价值;大数据最终会走向3.0,那时数据能够对内、对外产生价值,同时还能在不同组织间自由流动,形成整个社会的数据基础设施。
显然,出身的不同决定了其对两个概念的不同理解:来自传统商业智能领域者将大数据当成一个新增的数据源;而大数据一方则认为传统商业智能只是其领域中处理少量数据时的一种方法。不过,对于用户而言更希望能获得一种整体的解决方案,即不仅要能收集、处理和分析企业内部的业务数据,还希望能引入互联网上的网络浏览、微博、微信等非结构化数据。除此之外,还希望能结合移动设备的位置信息,这样企业就可以形成一个全面、完整的数据价值发展平台。毕竟,无论是大数据还是商业智能,目的都是为分析服务的,数据全面整合起来,更有利于发现新的商业机会。这也正是“BI 3.0”或者“Big Data 3.0”的最终目的。
实际上,用户对数据分析相关工具和界面的融合需求也已经开始出现,比如,在商业智能应用最为普及的银行中,就希望在原来仅仅为客户提供支付服务之外,还能知道更多客户的购买信息(比如,物品清单),从而可以更为充分地了解客户,为其下一步的精准营销奠定基础。
过往的历史表明,技术的活力在于不断创新。对于已经存在了20多年的相对比较成熟的商业智能而言,早就形成了一个相对完善的生态系统。更为重要的是,大量企业在传统商业智能方面已经进行了大量投资,特别是企业里很多业务其实已是围绕这样的系统来开展的时候,即使真有一种可替代的技术出现,这种替换也不会很快发生,更何况从目前来看大数据也不是这样一种技术。基于这样一个认识,我们认为,在未来相当长一段时间,大数据和传统商业智能将在相互促进中竞争,在竞争中共同进步,最终走向“BI 3.0”或者“Big Data 3.0”。