大数据重新定义商业智能

来源 :计算机世界 | 被引量 : 0次 | 上传用户:shanlai_lu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  在大数据时代,一批新的数据挖掘技术正在涌现,有望改变我们分析处理海量数据的方式,使得我们更快、更经济地获得所需的结果,同时,这些新技术也将给商业智能市场带来巨大冲击。
  
  这样的预测我们已经不止一次听到过:到2020年,需要存储的数据量将达到35万亿GB,是2009年数据存储量的44倍。根据IDC的研究,2010年底全球的数据量已经达到120万PB(或1.2 ZB)。这些数据如果使用光盘存储,摞起来可以从地球到月球一个来回(从地球到月球大约24万英里)。
  对悲观者而言,这是一个不好的消息,意味着数据存储世界的末日。而对于乐观者而言,这里孕育着巨大的市场机会,庞大的数据就是一个信息金矿,随着技术的进步,其财富价值将很快被我们发现,而且会越来越容易。
  实际上,围绕“大数据”,一批新兴的商业智能技术(包括数据挖掘技术、数据的存储、处理和分析技术)正在涌现,让我们处理海量的数据比以往任何时候都更便宜和更迅速。特别是,一旦这些大数据技术与超级计算机相结合,将成为企业业务活动不可缺少的助手,甚至改变许多行业做生意的方式。
  何谓大数据
  正如如日中天的“云计算”一样,近年来业界对大数据有了很多讨论,但是关于它的确切定义鲜有完全一致的说法。从云计算的发展过程来看,为了更好地让大数据技术落地,咨询机构的分析师和大数据相关厂商除了要给我们描述清楚大数据对于数据挖掘以及商业智能的未来意味着什么一样,还有必要明确地告诉我们,究竟什么是大数据,哪些与大数据无关。
  相对比较一致的说法是,大数据是指一系列使用非传统的工具(比如Hadoop,但不限于Hadoop)来对大量的结构化和非结构化数据进行处理,从而获得各种分析和预测结果的一系列数据挖掘技术,它仅仅包括大型数据仓库及其支撑其运行的硬件系统,还包括形式各异的数据,如计算机系统日志、金融服务交易记录、搜索引擎的搜索记录、电子邮件以及各种社交媒体活动等。
  大数据技术之所以如今成为热门是各种内外因综合作用的结果。在摩尔定律的推动下,IT设备的硬件成本一直在不断降低。而单位计算成本的不断下降以及多重处理系统的性能不断改善,给企业的大数据处理技术奠定了一个非常好的硬件基础;第二个原因是内存成本的不断下降,企业在内存中就可以处理大量的数据,而以前这需要大量的投资,高昂的投资使得这一办法常常实际上是不可行的。第三个原因,也是最重要的,现代IT技术让我们把很多服务器连接到一起组建服务器群集变得非常容易。
  在IDC的数据库管理分析师Carl Olofson看来,正是上述三个方面的因素结合起来创造了大数据时代的到来。
  “现在我们不仅可以把这些事情做得很好,而且是以一种可以负担得起方式来进行。”他说,“过去,一些部署了多重处理系统的大超级计算机也可以联成紧耦合的集群系统,但其投资十分巨大,常常是数百万甚至上千万美元,因为是专门的硬件。而现在我们通过常见的硬件设备就可以达到同样的配置,这就意味着我们能以一种更快、更便宜的方式处理更多的数据。”
  不过,并非每个正在使用大型数据仓库的企业都可以说它正在使用大数据技术。IDC认为,要判定一个企业是否需要使用大数据技术,其前提是该技术必须可以负担得起,其次还要满足三个标准,即IBM的三个“V”:类型(variety),数量(volume)和速度(velocity)。类型指数据中有结构化和非结构化等多种数据形式;量指收集和分析的数据量非常大;速度是指数据处理速度要足够快。
   “大数据并不是说数据量总是有数百TB。数据量是否大要根据具体使用场景,几百GB的数据量也可能对某些场合而言就相当大,因为数据的处理有三个方面的要求,除了数据量以外还要求速度或时间。”Olofson说,“如果我可以在一秒内完成对300GB数据的分析,而过去它需要一个小时,这将大大改变我利用这些处理结果的方式,这种处理能力的改善就为企业增加了价值。使用大数据技术的成本是企业负担得起的,而且至少能满足上述条件中的两个。”
  大数据与开源的天然联系
  “很多人认为Hadoop和大数据同义词,这是一个错误的认识。”Olofson说。他解释说,一些应用虽然采用的是Teradata、MySQL和“聪明的集群技术”而没有用Hadoop来实现,但也可以认为是大数据的应用。
  Hadoop是一个面向大数据的应用环境,也是大数据领域目前为止最受关注的工具,因为它基于MapReduce——这是超级计算机界常用的一个平台,在Google资助下对它进行了简化和优化。Hadoop是密切相关的几个Apache项目组成,包括MapReduce中的HBase数据库。
  目前,软件开发人员提出了很多技术来扩展Hadoop的使用,而且还开发了很多类似的技术,其中许多来自开源社区。
  “软件技术人员创建各种各样的NoSQL数据库,其中大多在优化数据库的I/0、增加数据的处理类型或者数据量上发挥了关键作用。”Olofson说。
  这些开源技术是没有商业上的支持。“这些技术还要完善一段时间,得到最终足够在市场立足可能还需要数年。因此,这是新生的大数据技术还要几年时间才能修成正果。”他补充说。
  来自IDC的消息,今年年底至少有三个商业供应商将为Hadoop提供一些支持服务。此外,几家厂商(如Datameer)将提出几个基于Hadoop的分析工具,以支持企业开发自己的应用。Cloudera和Tableau已经在其产品中使用了Hadoop 。
  不过,业内观察家就升级后的新一代关系数据库管理系统是否也应该被认为是大数据技术存在不同意见。
  “我认为新一代符合更快、更大、更便宜这个标准,”Olofson说,以Teradata为例,它的数据库系统已经变得便宜多了,而且它还是一个可扩展的集群环境。
  但也有人不同意。 “一般而言,你能用数据库和标准的BI工具来完成这些数据处理,这就不是真正的大数据技术。”Gartner的数据管理分析师Marcus Collins说,“这些处理技术已经存在很长一段时间了。”
  仍在快速演进之中
  大数据技术仍处于快速演进之中。现在正在利用该技术的公司无疑拥有一批优秀的IT人员,它们一般而言非常精通技术,并能适应技术的进步和自己公司的要求 。
  “如果你的公司不具备这些条件,那么,可以尝试与服务提供商(也许是某个云服务)进行合作,或者干脆再等等,直到市场有很多厂商能提供成熟的软件产品和服务再考虑应用大数据技术。”Olofson建议说,“毕竟,你的业务人员才是真正了解你业务的人。”
  毫无疑问,数据挖掘能相关技术已经发生了巨大的改变,但分析家说,大数据技术不会完全取代今天的数据仓库和数据挖掘工具 。
  “一直以来,数据挖掘重点考虑的是建立一个相对复杂的模型,来分析和处理不太多的数据。”Gartner的Collins说,“而现在,大数据技术让我们能处理海量的数据,因此很有可能,未来我们不再需要一个非常复杂的模型了,这可能意味着数据挖掘方式将发生巨大转变。”
   “我的看法是,大数据实际上将为数据仓库带来更多的商业机会。”Olofson说,“人们将使用类似MapReduce的技术,可以是Hadoop也可以是一些其他的技术,来获得一些非常有趣(或有价值)的商业情报,这些都是此前绝对不可能分析出来。接下来,为了重用并跟踪过去的模式,人们将把它用于数据仓库,这实际上会扩大数据仓库的使用。”
  规模和成功案例是大数据技术面临的另外一种挑战,Collins说,“因为没有现存的部署和使用这项技术的体系架构。可以说,大数据技术是在边摸索边完善。”
  他说,如果使用一些套装的工具有助于避免一些技术风险,但很多时候这项技术看起来似乎就是一些编程接口,很不成熟,对于商业智能技术的应用而言,这实际上是一个倒退。Collins举例说,“Hadoop是一个漂亮的供学术研究的系统,但在商业智能的驱动下,它已经进入企业和用户桌面,并且拥有对用户非常友好的用户界面。虽然有很多厂商围绕Hadoop提供了一些服务和技术支持,但更多的技术支持可能还是需要从用户社区中获得。”
  “大数据技术想要在IT领域得到普及,就需要为用户提供可以方便使用的工具,但在业务部门,供它们使用的此类工具还没有出现。”他补充说。
  谁在用大数据分析
  那么,究竟有哪些用户是在真正做大数据分析?
  一年前,大数据技术的主要用户是大型网络公司,如Facebook和雅虎,它们需要分析网页的点击数据。但在今天,“大数据技术的使用已经超出了互联网公司,其使用者涵盖各种各样的类型,几乎所有拥有海量数据的公司都在使用大数据技术。”Collins说,银行、公用事业、智能社区……众多的企业纷纷搭上了大数据这辆花车。
  一些大数据技术正在被那些迫切需要这些技术而且对新技术异常敏感的人们积极使用,如创建由社交媒体驱动的基于Web的服务。实际上,这些技术在这些项目中起到了关键作用。
  而在其他一些垂直行业,企业已意识到,与之前相比它们在产业链上的价值越来越依赖于信息,这样的认识有助于大数据技术得到更快速地应用和普及。再加上硬件价格的不断下降以及可承受的软件费用,企业发现自己正处于在业务转型的一个绝佳机会当口。
  应用1:电视广告价值评估
  总部位于纽约的TRA公司主要提供电视广告的价值评估服务,它们把家庭收看电视和数字录像时看到的电视广告与其实际发生的零售柜台购买进行比较分析,从而对电视广告进行价值评估。该公司通过收集有线电视公司的收看数据和零售店的会员名单来得到这些相关的数据。TRA的大数据系统处理170万个家庭收看电视的数据,这些数据具体到秒,如果没有大数据技术这是不可能的壮举。整个系统基于Kognitio的WX2数据库,不仅能迅速地上载、抽取或者分析数据,还能从DVR系统收集电视广告的收看信息,然后与零售店的POS机中的数据集成起来生成定制的报告。
  “Kognitio有一个基于内存的解决方案,我们现有的数据库中的一半数据都可以放到内存中,这就意味着,我们的客户如果提交了一个查询,它在几秒钟内就可以得到答案,而不是几小时或几天。”TRA的CEO Mark Lieberman说。
  这个数据库运行在开放的硬件平台上,而且TRA自己的前端应用程序采用的.NET的Visual Studio开发,这大大降低了投资成本。“我们仍然使用MySQL,用户界面采用DevExpress开发。”Lieberman补充说 。
  他预计,大数据技术有可能会彻底改变高达700亿美元的电视广告销售业务。因为传统的测算收视率的方法需要安装专门的机顶盒,调查抽样点在全国范围内不少于20000户家庭。而今天,详细数据可以直接从250万个DVR和有线电视分线盒得到,并可以对这些数据进行详细分析。
  “我们让这个700亿美元的广告市场变得可以测算,这就给广告主带来了更多的信心,让它们可以确信电视是个做广告的好地方。”Lieberman说,“这是一个巨大的进步,而这一切都是应为有了大数据分析。”
  Aberdeen集团的分析师Greg Belkin说,TRA和其他公司使用的这些工具因为符合大数据技术所要求的速度、数量和数据类型而被贴上了“大数据”这个标签。 “零售行业拥有很多数据源,其数据也处于爆炸状态,传统上无法对这些数据进行分析处理,更不可能对其进行挖掘,如社会媒体网站、视频监控和零售商的销售数据。”Belkin说,“就整个零售行而言,这一问题是非常尖锐的。因为数据量是如此巨大而且数据是如此复杂,使用传统的基于数据库的方法根本无法分析,因此零售行业纷纷转向大数据技术寻求帮助。”
  应用2:分析顾客的购买数据
  同样,大数据技术也让Catalina公司的市场营销发生了革命性改变。这家位于佛罗里达州圣彼得堡的公司拥有2.5 PB的顾客购买数据,它们记录着超过1.9亿美国购物者多年来的购买行为。其最大的单个数据库里保存的数据达到惊人的4250亿条,该公司每天都要对这个数据库中的6.25万亿条记录进行更新处理。
  通过对这些数据进行分析,Catalina帮助其主要的消费品制造商和大型连锁超市预测:哪些商品客户最有可能购买,谁会对新产品感兴趣。
  “我们希望把这项技术应用到我们的数据上,而不是让数据适应技术。” Catalina执行副总裁兼首席信息官Eric Williams说,“幸运的是,这项技术现在已经存在,比如SAS公司就把它们的数据分析技术应用到数据库上。”
  应该说,这项技术给Catalina整个公司带来了巨大改变。以前,该公司也曾想做这些事情,但由于存在很多限制,使得它们的很多想法无法实现。最终该公司不得不自己开发一些工具,但是它们实在太简陋,无法完成我们设想的目标。而大数据技术的出现改变了整个组织。
  如今,在Catalina的专有系统中除了应用了一些开源软件外,还在Netezza数据仓库应用平台上使用商业分析软件,包括SAS的分析工具SAS Analytics。
  Williams介绍说,公司还在研发可以在通用的、基于英特尔的硬件上运行的技术,这使得未来可以对二级和三级的产品进行分析或者预测,比如,让SAS Analytics的评分解决方案可以运行在Netezza上,而Netezza直接基于数据库运行。“能够利用这种技术并让它直接运行在数据库之上,意味着Catalina的数据挖掘方法可以从几周变成几个小时,这是非常有意义的。”
  应用3:识别商业欺骗
  曾任美国银行大数据和分析的常务总经理Abhishek Mehta在去年Hadoop World 上的演讲中表示,大数据技术从根本上改变了美国银行的业务运作方式。
  “我认为今天Hadoop的作为与20年前的Linux非常相似。我们都看到了Linux在企业软件领域的表现,它给企业软件市场带来了巨大的冲击。Hadoop正在做同样的事情。现在不是我们要不要部署Hadoop,而是什么时候部署的问题。”他说。
  美国银行除了利用Hadoop对网页的点击行为和交易进行分析之外,还利用Hadoop来快速解决业务问题——识别商业欺骗。
  “作为一个银行,我们非常希望能识别出欺骗行为。” Mehta说, “现在我可以针对每个人建立一个模型来分析他过去5年的每一次欺骗行为。而过去,我们只能抽取几个样本来建立一个模型,然后来看看是否有例外,如果有就重新建立一个新的模型,今天这样的日子已经结束了。”
  应用4:实时分析电力供应状况
  公用事业行业才刚刚开始注意到它手头已经积累了非常庞大的数据以及如此海量的数据可以为其带来的巨大价值。美国中西部的一个政府部门尝试使用Hadoop来分析智能电表送来的数据。
  “智能电表”主要用于对用电自动进行计费,但它们也能收集供电线路的电流波动状况。
  “如果能收集这些信息,并能建立一个适当的数学模式,就可以在变压器出现故障之前预测出它可能要出现故障。”Olofson说,“或者,如果某个电厂发生停电事故,可以通过电流的波动及时发现并采取行动,而不是直到客户来电才知道有停电事故 。”
  Olofson预计,未来公用事业部门将使用大数据技术来对电网进行监测和进行故障检测,从而具备对电网进行微调整的能力,最终不仅改善对客户的服务,并减少运营成本。不过,在此之前可能需要对老旧的基础设施进行大幅度的升级改造。
  另外,关注公司品牌的市场营销人员也正在尝试在社交媒体中使用Hadoop来进行“情绪分析(sentiment analysis)”,而且市场来涌现了一批服务提供商,它们使用Hadoop来对Twitter上发布的内容进行搜集和分析,以了解用户对某一个产品是如何定位的,对该产品是积极的认可还是消极的排斥。
  
  ============链接======
   关于大数据的三个误区
  如今,业界有大量关于何谓大数据以及它可以做什么的说法,其中有很多是相互矛盾的。这里是关于大数据的三个典型的错误说法,都存在一定的片面性:
   1.关系型数据库不能扩展到非常大的数据卷,因此不被认为是大数据的技术。
   2.无论工作负载有多大也无论使用场景如何,Hadoop(或,推而广之,任何MapReduce的环境)都是大数据的最佳选择。
   3.基于数据模型的数据库管理系统的时代已经结束了,数据模型必须采用大数据的方式来建立。
   (资料来源:IDC 2011年市场研究报告)
  
其他文献
80后视点  唐骏所面临的这场由“学历门”引发的诚信危机,未来很可能升级为对这位“职业经理人标杆”的全面质疑,因为一个成功的职业经理人绝不能只靠“秀”。    “打工皇帝”唐骏最近身陷“学历门”。  7月1日开始,“学术打假斗士”方舟子在微博上接连发出“檄文”,直指唐骏的学历和专利造假。几天之后,唐骏接受了媒体采访,表示自己拥有一所名为美国西太平洋大学(Pacific Western Univer
本报讯近日,国内领先的独立第三方支付及清结算企业快钱与中国游戏开发商网龙网络有限公司签署了包括快易付在内的支付合作协议。经过审慎评估,网龙旗下包括魔域、王者重生在内的所有游戏,均开通了快易付服务。    快易付是快钱针对频繁支付的情况而设计的全新支付方式。通过快易付,玩家就可以将授权银行账户的款项支付给企业,完成支付。并且,“快易付”快速充值通道还可以在每次账户余额快用完的时候自动充值。“快易付”
凭借优质的内容和服务,高清才能吸引用户、带动用户增长。而这,也是高清摆脱免费困局,走向用服务收费、完善产业链的必经途径。    让用户从“看电视”到“用电视”,一直以来困难颇多。目前,全国都普遍以“免费高清 低廉租金”的形式,通过免费高清导入收费互动。那么,有线电视能否在高清用户井喷增长的期间,培养用户对高清节目的付费习惯呢?    用服务带动用户    2009年年底,北京天天放送文化传播有限公
本报讯在台式机的市场上,四核处理器上市以来已经成为游戏玩家的主要追捧对象。一直主打游戏机型的方正卓越I550将CPU升级,采用了英特尔第二代智能酷睿处理器并配以NVIDIA G405 1G独立显卡与1TB硬盘,搭配了21.5英寸的Full HD高清显示器,再加上“龙之谷”的机身面板设计,完全针对游戏玩家的口味。本款产品通过英特尔第二代智能酷睿处理器SNB新平台,可以让处理器的每个内核同时处理两个任
本报讯(记者王臻)1月8日,英特尔推出2010全新英特尔酷睿处理器家族,即酷睿 i7/i5/i3处理器。全新酷睿处理器基于领先的32纳米制程工艺,采用英特尔第二代高k金属栅极晶体管,与其它先进技术配合,能显著提升处理器运算速度,同时降低能耗。全新酷睿处理器提供多种先进特性,并在处理器中集成高清显卡,将被直接用于多种不同价位的处理器。  英特尔公司副总裁、全球处理器研发项目总监Rani N.Bork
本报综合消息 德国银行协会于1月5日警告说,在进入2010年之际,大约2350万张德国银行卡遭到类似“千年虫”软件漏洞的损害,使电脑芯片无法识别年份“2010”,造成使用自动取款机或在德国境内甚至境外分行取款、用卡消费的银行客户无法使用银行卡。  同样,澳大利亚昆士兰银行的计算机系统显示的日期跳到了2016年1月1日。银行的转账和信用卡系统随即全面瘫痪,不同账户间的转账交易被取消,许多昆士兰银行的
近日,LSI公司在中国推出了CTS2600系列可配置存储组件,为白盒渠道合作伙伴构建、定制、贴牌以及销售外部存储系统配置提供了快速、高效且低成本的方案。这种采用可配置元件的独特方案旨在使渠道合作伙伴能够根据客户要求,更灵活地组装起完整的系統,而且无需花费大量成本存储预配置系统。  CTS2600系列是为了满足直连和SAN环境中的中小企业的需求,能够为其提供低成本、高质量的外部存储组件,如控制器、存
成王败寇  在政权斗争中,成功了的就是合法的,称帝称王;失败了的就是非法的,成为寇贼。在HTML5与Flash的标准之争中,HTML5更适应多变的互联网环境、能满足开发人员需求,迫使Adobe公司放弃移动Flash技术研发。  也许在PC端Flash与HTML5的战场还硝烟弥漫,但在移动终端,随着Adobe的放弃,HTML5终于在2011年下半年转正,成为移动网页开发的主要工具。今年11月Adob
HTML5将改变互联网的方方面面。HTML5可能不会完全取代Flash,但它会重塑互联网,使浏览器无需借助插件就可以做更多的工作,从位置跟踪、视频播放到把云端的数据缓存到本地,最终能使互联网更安全、更高效、更灵活。    Adobe和Apple围绕Flash发生的冲突是今年上半年的一个焦点事件,引起了很多人的关注,其中有不少人因这一事件第一次了解到HTML5的存在。初次了解HTML5的人可能会非常
好消息    英特尔、美光联手推出  25纳米NAND  本报讯英特尔公司和美光科技公司近日宣布,推出世界上首个25纳米NAND技术。该技术能够增加智能手机、个人音乐与媒体播放器(PMP)等流行消费电子产品,以及全新高性能固态硬盘(SSD)的存储容量,提供更高的成本效益。NAND闪存可用于存储消费电子产品中的数据和其他媒体内容,即使在电源关闭时也能保留信息。    百事公司部署思科网真  加强跨公