论文部分内容阅读
刚进入2013年,网络数据分析厂商Splunk将被IBM以40亿美元收购的消息就传得沸沸扬扬。虽然迄今两家公司都没有对此消息表态,但是分析人士均认为,IBM布局大数据的手笔不可轻视,被公认为“大数据概念第一股”的Splunk落入IBM囊中绝非臆想。“大数据”犹如一座金矿,正散发着令人难以抗拒的财富气息。
关于大数据,Gartner给出了这样的定义:需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这与维基百科给出的定义不谋而合,即所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。
当前,大数据的内涵远远超过了“大”或者“数据”的定义。数据前所未有地以几何速度增长,呈现出多样、复杂的特性,大数据更是以“像货币和黄金一样的新经济资产”,首次出现在了“达沃斯世界经济论坛”的报告中。对于笃信者,大数据必将会带来商业模式的变革;对于阴谋论者,大数据就是一场旧瓶装新酒的骗局。
大数据是企业变革的机遇还是巨头营造的骗局?大数据的商业机会在哪里?谁又将会被大数据改变命运?
数据大爆炸
正如美剧《生活大爆炸》歌词里所唱的那样:It all started with the big bang(一切从大爆炸开始)。IDC的研究报告表明,目前数字领域存在着1.8万亿GB的数据,企业数据正在以55%的速度逐年增长。全球最大的零售商沃尔玛现在每天进入交易数据库的数据总量已经达到2.5PB(1PB=1024TB);截至2012年9月30日,新浪注册用户数已经达到4.24亿,平均每天在线活跃的微博用户达到了4230万;全球总计约有33.7亿的电子邮件账户,每天人类发送的电子邮件已经达到1450亿封。这意味着,过去3500年人类文明发展所产生的数据,仅仅约等于我们现在两天所产生的数据,数据大爆炸的时代已经来临。
奥巴马又一次赢得了总统大选。《时代周刊》认为,他获胜的一个秘密在于背后的决策团队,尤其是他们对数据的分析能力。怎样购买广告、针对不同人群做出精选策略,如何利用Facebook等社交网络推动大家投票……可以说,是对大量数据的精准解码,让奥巴马团队掌握了选民的心理,最终大获全胜。
2012年3月,奥巴马宣布美国政府拨款两亿美元启动“大数据研究和发展计划”。8个月后,他本人就成为了大数据应用的受益者。“大数据研究和发展计划”被认为是1993年美国宣布“信息高速公路”计划后,白宫在推动信息技术产业政策层面的又一次“狂飙猛进”。
几年前,大部分数据还是结构化数据,如来自销售交易的财务数据这类字母数字信息,很容易存储在关系数据库中,并由商业智能工具来分析。但这一情况在2012年发生了巨大的变化,来自IDC的报告显示,2012年全球数字信息中90%的数据都是视频、声音和图像文件这样的非结构化数据,众多企业都不得不面对四面八方涌来的数据流的冲击。
然后,就有了“大数据”。
“机器学习”时代
大数据在今天迅猛蹿红、势不可挡,各大企业纷纷在该领域出手,一场新的战争已经打响。
一直被视为IT行业精神领袖的IBM,在大数据领域的投入更是“令人咋舌”。就在最近,2012年美国年度专利申请和审批榜单(USPTO)发布,IBM连续20年蝉联榜首,2012年以6478项专利稳获专利冠军宝座,比第二名三星电子的专利数多出1000多个,因此有评论称:这张表已经成为每年IBM的“炫耀仪式”。一位IBM发言人说:IBM新专利中有300个涉及到“分析”,它们都来自公司内部研究和收购,目标直指大数据。由此可见,IBM对于大数据的重视。
有媒体统计,自2005年以来,IBM投资160亿美元进行了30次与大数据有关的收购,其中很多都是10亿美元以上的大手笔,包括在2007年花费20亿美元收购商务智能软件供应商Congnos;2009年斥资12亿美元收购集数据整理、分析功能于一身的统计分析软件SPSS;2010年以17亿美元的代价将数据库分析供应商Netezza收入麾下……同时,IBM也不断宣讲自己的大数据理念,加强话语权。例如在众所周知的大数据“3V”特点——数量、速度、多样性之外,IBM又提出一个新的维度——“真实性”。强调3V只是对大数据最基本特征的归纳,实际上大数据向外延伸的涵义很丰富,第四个V——Veracity(真实和准确),其重要性足以与前3个V相提并论,因为只有真实而准确的数据,才能让管控和治理真正有意义。
IBM CEO罗睿兰则从公司战略层面表述了应对大数据时代的态度。首先她强调员工和客户都要认识到:“这是机器学习的时代。”
她强调,当前世界已进入以认知计算为代表的新时代,将来大数据的分析、处理和利用都将变得更加自动化,机器能够智能地去处理不同类型的数据,人们需要做好准备;其次,IBM要去面对新的客户,他们不是传统的CIO,而是类似CMO的人群,与客户之间的交流也将不再是传统的面谈或者电话等方式,而是将更加移动和社会化,交互更频繁;另外,IBM的员工也要做转型,要能更有效地利用移动和社会化的方式与客户打交道。而移动和社会化方式在应用的同时就会产生大数据,因此IBM本身也需要具备大数据处理和分析的环境。
目前,IBM已经成立了一个大规模数据分析和建模研究院,目标就是通过让不同领域的专家和数据科学家在一起工作,共享数据资源和模型、算法,最终研发出相应行业的大数据解决方案。
软硬兼施
2012年11月23日是美国零售行业一年中最重大的节日——“黑色星期五”。当天,美国网络零售额达到10.4亿美元,较上年的8.16亿美元增长了26%,创下新的纪录。就在美国人民热情网购的同时,IBM一直在统计人们在线购物的数据,24日凌晨就得出了商品销量涨幅、使用移动设备网购人数涨幅、使用iPad网购人群的特点、参考社交网络完成在线网购人群比例等诸多统计及分析结果。他们是如何在这么短的时间里做到这一切的?
事实上,正如IBM软件集团大中华区业务分析洞察及智慧地球解决方案总经理卜晓军所说:“不管是在IT层面还是在业务层面,IBM在大数据方面彰显的优势都能够以‘全面’来充分涵盖,这包括‘全面的战略理论’、‘全面的解决方案’以及‘全面的落地实践’。”“黑色星期五”的出色表现,是因为IBM通过旗下Benchmark云端数据分析服务获取到相关销售数据,而Benchmark直接从全美500家规模最大的零售商网站搜集数据,以显示全美电子商务市场的格局。这体现出的正是“智能商务”服务能力,IBM可以帮助零售商及其他行业用户更好地理解冗杂的数据,展开出色的营销活动。
卜晓军表示,IBM通过整合软件、硬件、咨询服务、研发等各领域针对大数据的最前沿资产和独有技术,紧密结合IBM深厚的市场经验和前瞻的创新理念,能够为大数据时代的行业客户带来最大的价值。
目前,IBM大数据平台的四大核心能力包括Hadoop系统、流计算、数据仓库和信息整合与治理。其中,IBM在Hadoop系统领域的代表产品是InfoSphere BigInsights。IBM将其在数据管理上的丰富经验与Hadoop开源平台高效整合,使得BigInsights相较于普通的Hadoop开源工具,在可用性、可管理性、安全性上得以大大提高,成为最主要的静态大数据分析工具和平台;而流计算领域的代表产品是InfoSphere Streams,这是目前IBM独有的流数据处理技术;数据仓库领域的代表产品则是在线交易型数据仓库InfoSphere Warehouse和分析型数据仓库Netezza;信息整合与治理同样是IBM在业界独有的方法论和技术,其代表产品是Optim和Guardium。此外,Guardium 9也能够管理除IBM之外的第三方数据平台,帮助客户保持在原有的系统的基础上,最小成本、最大能力地提高信息安全和质量。
显然,IBM在大数据领域打造的是软硬兼施的完整能力,基于多年的技术及行业经验积累,以及前瞻性的行业眼光,IBM驾驭大数据的实力有目共睹。对于其在大数据时代的表现,人们有理由投以更多期待的目光。
关于大数据,Gartner给出了这样的定义:需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这与维基百科给出的定义不谋而合,即所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。
当前,大数据的内涵远远超过了“大”或者“数据”的定义。数据前所未有地以几何速度增长,呈现出多样、复杂的特性,大数据更是以“像货币和黄金一样的新经济资产”,首次出现在了“达沃斯世界经济论坛”的报告中。对于笃信者,大数据必将会带来商业模式的变革;对于阴谋论者,大数据就是一场旧瓶装新酒的骗局。
大数据是企业变革的机遇还是巨头营造的骗局?大数据的商业机会在哪里?谁又将会被大数据改变命运?
数据大爆炸
正如美剧《生活大爆炸》歌词里所唱的那样:It all started with the big bang(一切从大爆炸开始)。IDC的研究报告表明,目前数字领域存在着1.8万亿GB的数据,企业数据正在以55%的速度逐年增长。全球最大的零售商沃尔玛现在每天进入交易数据库的数据总量已经达到2.5PB(1PB=1024TB);截至2012年9月30日,新浪注册用户数已经达到4.24亿,平均每天在线活跃的微博用户达到了4230万;全球总计约有33.7亿的电子邮件账户,每天人类发送的电子邮件已经达到1450亿封。这意味着,过去3500年人类文明发展所产生的数据,仅仅约等于我们现在两天所产生的数据,数据大爆炸的时代已经来临。
奥巴马又一次赢得了总统大选。《时代周刊》认为,他获胜的一个秘密在于背后的决策团队,尤其是他们对数据的分析能力。怎样购买广告、针对不同人群做出精选策略,如何利用Facebook等社交网络推动大家投票……可以说,是对大量数据的精准解码,让奥巴马团队掌握了选民的心理,最终大获全胜。
2012年3月,奥巴马宣布美国政府拨款两亿美元启动“大数据研究和发展计划”。8个月后,他本人就成为了大数据应用的受益者。“大数据研究和发展计划”被认为是1993年美国宣布“信息高速公路”计划后,白宫在推动信息技术产业政策层面的又一次“狂飙猛进”。
几年前,大部分数据还是结构化数据,如来自销售交易的财务数据这类字母数字信息,很容易存储在关系数据库中,并由商业智能工具来分析。但这一情况在2012年发生了巨大的变化,来自IDC的报告显示,2012年全球数字信息中90%的数据都是视频、声音和图像文件这样的非结构化数据,众多企业都不得不面对四面八方涌来的数据流的冲击。
然后,就有了“大数据”。
“机器学习”时代
大数据在今天迅猛蹿红、势不可挡,各大企业纷纷在该领域出手,一场新的战争已经打响。
一直被视为IT行业精神领袖的IBM,在大数据领域的投入更是“令人咋舌”。就在最近,2012年美国年度专利申请和审批榜单(USPTO)发布,IBM连续20年蝉联榜首,2012年以6478项专利稳获专利冠军宝座,比第二名三星电子的专利数多出1000多个,因此有评论称:这张表已经成为每年IBM的“炫耀仪式”。一位IBM发言人说:IBM新专利中有300个涉及到“分析”,它们都来自公司内部研究和收购,目标直指大数据。由此可见,IBM对于大数据的重视。
有媒体统计,自2005年以来,IBM投资160亿美元进行了30次与大数据有关的收购,其中很多都是10亿美元以上的大手笔,包括在2007年花费20亿美元收购商务智能软件供应商Congnos;2009年斥资12亿美元收购集数据整理、分析功能于一身的统计分析软件SPSS;2010年以17亿美元的代价将数据库分析供应商Netezza收入麾下……同时,IBM也不断宣讲自己的大数据理念,加强话语权。例如在众所周知的大数据“3V”特点——数量、速度、多样性之外,IBM又提出一个新的维度——“真实性”。强调3V只是对大数据最基本特征的归纳,实际上大数据向外延伸的涵义很丰富,第四个V——Veracity(真实和准确),其重要性足以与前3个V相提并论,因为只有真实而准确的数据,才能让管控和治理真正有意义。
IBM CEO罗睿兰则从公司战略层面表述了应对大数据时代的态度。首先她强调员工和客户都要认识到:“这是机器学习的时代。”
她强调,当前世界已进入以认知计算为代表的新时代,将来大数据的分析、处理和利用都将变得更加自动化,机器能够智能地去处理不同类型的数据,人们需要做好准备;其次,IBM要去面对新的客户,他们不是传统的CIO,而是类似CMO的人群,与客户之间的交流也将不再是传统的面谈或者电话等方式,而是将更加移动和社会化,交互更频繁;另外,IBM的员工也要做转型,要能更有效地利用移动和社会化的方式与客户打交道。而移动和社会化方式在应用的同时就会产生大数据,因此IBM本身也需要具备大数据处理和分析的环境。
目前,IBM已经成立了一个大规模数据分析和建模研究院,目标就是通过让不同领域的专家和数据科学家在一起工作,共享数据资源和模型、算法,最终研发出相应行业的大数据解决方案。
软硬兼施
2012年11月23日是美国零售行业一年中最重大的节日——“黑色星期五”。当天,美国网络零售额达到10.4亿美元,较上年的8.16亿美元增长了26%,创下新的纪录。就在美国人民热情网购的同时,IBM一直在统计人们在线购物的数据,24日凌晨就得出了商品销量涨幅、使用移动设备网购人数涨幅、使用iPad网购人群的特点、参考社交网络完成在线网购人群比例等诸多统计及分析结果。他们是如何在这么短的时间里做到这一切的?
事实上,正如IBM软件集团大中华区业务分析洞察及智慧地球解决方案总经理卜晓军所说:“不管是在IT层面还是在业务层面,IBM在大数据方面彰显的优势都能够以‘全面’来充分涵盖,这包括‘全面的战略理论’、‘全面的解决方案’以及‘全面的落地实践’。”“黑色星期五”的出色表现,是因为IBM通过旗下Benchmark云端数据分析服务获取到相关销售数据,而Benchmark直接从全美500家规模最大的零售商网站搜集数据,以显示全美电子商务市场的格局。这体现出的正是“智能商务”服务能力,IBM可以帮助零售商及其他行业用户更好地理解冗杂的数据,展开出色的营销活动。
卜晓军表示,IBM通过整合软件、硬件、咨询服务、研发等各领域针对大数据的最前沿资产和独有技术,紧密结合IBM深厚的市场经验和前瞻的创新理念,能够为大数据时代的行业客户带来最大的价值。
目前,IBM大数据平台的四大核心能力包括Hadoop系统、流计算、数据仓库和信息整合与治理。其中,IBM在Hadoop系统领域的代表产品是InfoSphere BigInsights。IBM将其在数据管理上的丰富经验与Hadoop开源平台高效整合,使得BigInsights相较于普通的Hadoop开源工具,在可用性、可管理性、安全性上得以大大提高,成为最主要的静态大数据分析工具和平台;而流计算领域的代表产品是InfoSphere Streams,这是目前IBM独有的流数据处理技术;数据仓库领域的代表产品则是在线交易型数据仓库InfoSphere Warehouse和分析型数据仓库Netezza;信息整合与治理同样是IBM在业界独有的方法论和技术,其代表产品是Optim和Guardium。此外,Guardium 9也能够管理除IBM之外的第三方数据平台,帮助客户保持在原有的系统的基础上,最小成本、最大能力地提高信息安全和质量。
显然,IBM在大数据领域打造的是软硬兼施的完整能力,基于多年的技术及行业经验积累,以及前瞻性的行业眼光,IBM驾驭大数据的实力有目共睹。对于其在大数据时代的表现,人们有理由投以更多期待的目光。