数据之美

来源 :计算机世界 | 被引量 : 0次 | 上传用户:xdzc2009cccc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  刚进入2013年,网络数据分析厂商Splunk将被IBM以40亿美元收购的消息就传得沸沸扬扬。虽然迄今两家公司都没有对此消息表态,但是分析人士均认为,IBM布局大数据的手笔不可轻视,被公认为“大数据概念第一股”的Splunk落入IBM囊中绝非臆想。“大数据”犹如一座金矿,正散发着令人难以抗拒的财富气息。
  关于大数据,Gartner给出了这样的定义:需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这与维基百科给出的定义不谋而合,即所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。
  当前,大数据的内涵远远超过了“大”或者“数据”的定义。数据前所未有地以几何速度增长,呈现出多样、复杂的特性,大数据更是以“像货币和黄金一样的新经济资产”,首次出现在了“达沃斯世界经济论坛”的报告中。对于笃信者,大数据必将会带来商业模式的变革;对于阴谋论者,大数据就是一场旧瓶装新酒的骗局。
  大数据是企业变革的机遇还是巨头营造的骗局?大数据的商业机会在哪里?谁又将会被大数据改变命运?
  数据大爆炸
  正如美剧《生活大爆炸》歌词里所唱的那样:It all started with the big bang(一切从大爆炸开始)。IDC的研究报告表明,目前数字领域存在着1.8万亿GB的数据,企业数据正在以55%的速度逐年增长。全球最大的零售商沃尔玛现在每天进入交易数据库的数据总量已经达到2.5PB(1PB=1024TB);截至2012年9月30日,新浪注册用户数已经达到4.24亿,平均每天在线活跃的微博用户达到了4230万;全球总计约有33.7亿的电子邮件账户,每天人类发送的电子邮件已经达到1450亿封。这意味着,过去3500年人类文明发展所产生的数据,仅仅约等于我们现在两天所产生的数据,数据大爆炸的时代已经来临。
  奥巴马又一次赢得了总统大选。《时代周刊》认为,他获胜的一个秘密在于背后的决策团队,尤其是他们对数据的分析能力。怎样购买广告、针对不同人群做出精选策略,如何利用Facebook等社交网络推动大家投票……可以说,是对大量数据的精准解码,让奥巴马团队掌握了选民的心理,最终大获全胜。
  2012年3月,奥巴马宣布美国政府拨款两亿美元启动“大数据研究和发展计划”。8个月后,他本人就成为了大数据应用的受益者。“大数据研究和发展计划”被认为是1993年美国宣布“信息高速公路”计划后,白宫在推动信息技术产业政策层面的又一次“狂飙猛进”。
  几年前,大部分数据还是结构化数据,如来自销售交易的财务数据这类字母数字信息,很容易存储在关系数据库中,并由商业智能工具来分析。但这一情况在2012年发生了巨大的变化,来自IDC的报告显示,2012年全球数字信息中90%的数据都是视频、声音和图像文件这样的非结构化数据,众多企业都不得不面对四面八方涌来的数据流的冲击。
  然后,就有了“大数据”。
  “机器学习”时代
  大数据在今天迅猛蹿红、势不可挡,各大企业纷纷在该领域出手,一场新的战争已经打响。
  一直被视为IT行业精神领袖的IBM,在大数据领域的投入更是“令人咋舌”。就在最近,2012年美国年度专利申请和审批榜单(USPTO)发布,IBM连续20年蝉联榜首,2012年以6478项专利稳获专利冠军宝座,比第二名三星电子的专利数多出1000多个,因此有评论称:这张表已经成为每年IBM的“炫耀仪式”。一位IBM发言人说:IBM新专利中有300个涉及到“分析”,它们都来自公司内部研究和收购,目标直指大数据。由此可见,IBM对于大数据的重视。
  有媒体统计,自2005年以来,IBM投资160亿美元进行了30次与大数据有关的收购,其中很多都是10亿美元以上的大手笔,包括在2007年花费20亿美元收购商务智能软件供应商Congnos;2009年斥资12亿美元收购集数据整理、分析功能于一身的统计分析软件SPSS;2010年以17亿美元的代价将数据库分析供应商Netezza收入麾下……同时,IBM也不断宣讲自己的大数据理念,加强话语权。例如在众所周知的大数据“3V”特点——数量、速度、多样性之外,IBM又提出一个新的维度——“真实性”。强调3V只是对大数据最基本特征的归纳,实际上大数据向外延伸的涵义很丰富,第四个V——Veracity(真实和准确),其重要性足以与前3个V相提并论,因为只有真实而准确的数据,才能让管控和治理真正有意义。
  IBM CEO罗睿兰则从公司战略层面表述了应对大数据时代的态度。首先她强调员工和客户都要认识到:“这是机器学习的时代。”
  她强调,当前世界已进入以认知计算为代表的新时代,将来大数据的分析、处理和利用都将变得更加自动化,机器能够智能地去处理不同类型的数据,人们需要做好准备;其次,IBM要去面对新的客户,他们不是传统的CIO,而是类似CMO的人群,与客户之间的交流也将不再是传统的面谈或者电话等方式,而是将更加移动和社会化,交互更频繁;另外,IBM的员工也要做转型,要能更有效地利用移动和社会化的方式与客户打交道。而移动和社会化方式在应用的同时就会产生大数据,因此IBM本身也需要具备大数据处理和分析的环境。
  目前,IBM已经成立了一个大规模数据分析和建模研究院,目标就是通过让不同领域的专家和数据科学家在一起工作,共享数据资源和模型、算法,最终研发出相应行业的大数据解决方案。
  软硬兼施
  2012年11月23日是美国零售行业一年中最重大的节日——“黑色星期五”。当天,美国网络零售额达到10.4亿美元,较上年的8.16亿美元增长了26%,创下新的纪录。就在美国人民热情网购的同时,IBM一直在统计人们在线购物的数据,24日凌晨就得出了商品销量涨幅、使用移动设备网购人数涨幅、使用iPad网购人群的特点、参考社交网络完成在线网购人群比例等诸多统计及分析结果。他们是如何在这么短的时间里做到这一切的?
  事实上,正如IBM软件集团大中华区业务分析洞察及智慧地球解决方案总经理卜晓军所说:“不管是在IT层面还是在业务层面,IBM在大数据方面彰显的优势都能够以‘全面’来充分涵盖,这包括‘全面的战略理论’、‘全面的解决方案’以及‘全面的落地实践’。”“黑色星期五”的出色表现,是因为IBM通过旗下Benchmark云端数据分析服务获取到相关销售数据,而Benchmark直接从全美500家规模最大的零售商网站搜集数据,以显示全美电子商务市场的格局。这体现出的正是“智能商务”服务能力,IBM可以帮助零售商及其他行业用户更好地理解冗杂的数据,展开出色的营销活动。
  卜晓军表示,IBM通过整合软件、硬件、咨询服务、研发等各领域针对大数据的最前沿资产和独有技术,紧密结合IBM深厚的市场经验和前瞻的创新理念,能够为大数据时代的行业客户带来最大的价值。
  目前,IBM大数据平台的四大核心能力包括Hadoop系统、流计算、数据仓库和信息整合与治理。其中,IBM在Hadoop系统领域的代表产品是InfoSphere BigInsights。IBM将其在数据管理上的丰富经验与Hadoop开源平台高效整合,使得BigInsights相较于普通的Hadoop开源工具,在可用性、可管理性、安全性上得以大大提高,成为最主要的静态大数据分析工具和平台;而流计算领域的代表产品是InfoSphere Streams,这是目前IBM独有的流数据处理技术;数据仓库领域的代表产品则是在线交易型数据仓库InfoSphere Warehouse和分析型数据仓库Netezza;信息整合与治理同样是IBM在业界独有的方法论和技术,其代表产品是Optim和Guardium。此外,Guardium 9也能够管理除IBM之外的第三方数据平台,帮助客户保持在原有的系统的基础上,最小成本、最大能力地提高信息安全和质量。
  显然,IBM在大数据领域打造的是软硬兼施的完整能力,基于多年的技术及行业经验积累,以及前瞻性的行业眼光,IBM驾驭大数据的实力有目共睹。对于其在大数据时代的表现,人们有理由投以更多期待的目光。
其他文献
贵州省黔西南州烟草公司(简称“州公司”)各单位互联网访问原先为各自出口、费用自理且没有相应的安全防护措施。为完善互联网访问、应用安全防护能力,达到上网行为可控、可查、可追述的管理要求,后改为经上级单位做互联网统一出口规划后,需由州公司统一提供互联网出口服务,但这给州公司网络管理人员日常网络管理带来了极大的风险和压力,同时也给互联网线路带来了更高的服务要求。怎样使互联网访问应用安全性最好、线路带宽使
在住建部公布的首批国家智慧城市试点名单中,苏州工业园成功入选,而该园于多年前率先于周边城市启动的“大通关战略”,在智慧城市建设中扮演着重要角色。据悉,自2004年至今,神州信息一直担负着苏州“大通关战略”的升级换代工作。通过紧密合作,目前苏州工业园实现了高效的物流、人流、资金流、信息流的通关运转,不仅加快了苏州当地的贸易和产业发展,打通了苏州和国际的通道,也巩固了苏州区域中心城市的地位。  在苏州
四年一度的世界杯正在巴西如火如荼的进行。对于普通球迷而言,关心的可能是场上球员的精彩表现以及整场比赛的胜负。而对于CCTV未来广告有限公司的员工而言,除了这些,他们可能还会去留意直播过程中赞助厂商Logo出现的次数和时长,这是工作的习惯或者说工作需要。由于拥有本届世界杯的独家转播权,中央电视台5套成为很多广告主的首选。作为CCTV 5套节目广告的负责单位,CCTV未来广告公司需要把上面提到的数据汇
这是一个美丽的海滨城市,位于黄海之滨、胶州湾畔,是一座天然良港;  这是一个电子信息产品重要的制造基地,被称为“家电之都”、“品牌之都”;  这是一个正在崛起的软件新城,正在朝着软件名城的目标大踏步迈进;  她,就是中国唯一入选“世界最美海湾”的城市——青岛。  后发优势明显  很多年前来过青岛,“红瓦绿树”、“碧海蓝天”给记者留下了很深的印象。  士别三日,当刮目相看。青岛2012年国民生产总值
在科技行业流传着这样一个说法:如果汽车工业能够像计算机领域一样发展,那么今天,买一辆汽车只需要25美元,一公升汽油能跑400公里。这说明IT行业的技术创新要远远快于其他行业。  2012年,IT技术发生了很多关键的变化,智能移动设备特别是平板的快速普及,基于SSD的存储技术快速发展,基于Hadoop的大数据处理架构广泛应用,之前只在有限范围内应用的内存计算技术也在加快发展,HTML5相关技术发展虽
“批发式经营已被证明是义乌小商品得以行销和风靡全球的关键性因素,这种模式转为线上同样具有巨大潜力。所以‘义乌购’作为义乌小商品市场的官方网站,当然会将这种模式继续推行下去,走和实体市场高度统一的路线。”12月1日,义乌购总经理王建军在接受记者专访时说。  据了解,基于义乌小商品市场,义乌购开创了独有的B2R模式——在上游集成小商品城遍布国内外的供应商资源,通过统一筛选、分拣、仓储、物流,将这些资源
目前,中国互联网用户数量急剧飙升,总人数超过5亿人,而中国云计算市场更是风起云涌,公有云、私有云、行业云、企业云、云中心建设与应用与日俱增。  “为了满足市场需求和用户需要,英特尔加大研发投入,推出了全新平台。超微作为服务器技术创新企业,一向站在服务器技术前沿。此次在英特尔服务器平台推新换代之际,超微也推出了全新的解决方案,旨在为业界和用户带来全新的体验。”日前,超微大中华区总经理Nancy Le
编者按:本文介绍了暴力破解事件,并尝试使用日志分析方法识别暴力破解事件;同时介绍了日志分析方法的原理,日志分析系统的功能和工作流程,指出了日志的范式化和关联分析是识别暴力破解事件的关键所在,并实际构建了相应的关联分析规则。通过日志分析的方法,IT管理者可以实现对企业内网中暴力破解和暴力破解成功事件的关联分析规则的创建,实时识别内网中存在的该类攻击事件。  在企业内网中,有许多重要的信息系统,基本都
跳楼不如跳槽,你已懒得跳槽;  罢工不如辞职,你已懒得辞职;  拼命不如拼爹,你已懒得拼命;  你也懒得结婚,  你甚至懒得说话,  你甚至懒得起床……  是什么让你变得如此麻木?  如果绝望都无法让你绝望,  如果悲伤都无法让你悲伤,  那么你还有什么快乐可言!  是因为压力。压力就像一个不折不扣的恶棍,一个挥之不去的梦魇,一场比永远还要远的长跑。它摧毁你的精神,使你沮丧或者暴躁,无助或者颓废,
随着宁夏社会保险信息系统数据大集中、应用大集中和网络大集中的实施,以实时性强、批量业务时间长、并发访问量大、海量数据传输和存储为特点的社会保险业务要求计算机信息网络系统必须提供7天*24小时的不间断可用性、强大的运算处理能力、较快的系统反应时间。因此,需要在宁夏社会保障一卡通工程中使用负载均衡器,在现有网络结构上,廉价有效透明的扩展网络设备和服务器的带宽,将网络请求分发到服务器集群中的可用服务器上