论文部分内容阅读
一年一度的“IBM信息随需应变(Information on Demand,IOD)大会”如期而至,仍然在拉斯维加斯这个现代化气息浓厚的城市举办,主角仍然是大数据。
今年,IBM向与会者展示了其面向大数据时代的诸多新产品和新方案,并遵循提供整体解决方案的理念,结合IBM自身的优势,从服务、实施和方法论等多个方面,为企业用户提供了颇具参考意义的大数据实施范本。
大数据分析需求将增长20%
在未来5年内,全球IT市场对大数据分析人员的需求将增长20%以上——IBM商业分析部总经理Les Rechan这样告诉我们,这是因为对企业而言,无论是客户管理、运营、风险控制、采购还是IT,都与大数据分析密切相关,都需要依据大数据分析的结果来进行和改进。
要满足这种需求,必须将大数据分析的思想注入企业文化,并为之打造新的架构,创建大数据分析的平台,在此基础上,实现管理风险的可控。
IBM积极提升自身提供大数据分析工具的能力,以让更多的技术人员成长为合格的大数据分析人员。据IBM高级副总裁兼软件与系统集团执行总裁Steve Mills介绍,在过去的一年里,IBM总共花了200亿美元进行收购,以“进入由大数据带来的卓越决策世界”。
IBM大数据实验室总监Aya Soffer表示,收购对IBM来说是好事,意味着IBM不需要重新进行创新,而只需要把主要精力放在整合和提升收购的产品上,因为收购来的产品已经具备了一定的技术沉淀,IBM大数据实验室的使命之一就是对新收购的产品进行一定的技术上的合作和改进。
通过收购和自主研发的双管齐下,IBM离“利用大数据分析获得卓越决策”的目标越来越近——其InfoSphere分析产品提供市面上任何其他产品4倍的性能,而且通过BLU加速器,该公司的相关产品拥有比同类产品快38倍的数据处理速度。
进一步,IBM将其大数据分析产品与云计算有机结合起来。IBM最近收购的SoftLayer正迅速成为其云产品组合的基础。值得一提的是,IBM斥资20亿美元收购SoftLayer后的4个月里,已经增加了超过1000个新客户。
在本次大会上推出的BLU加速云(bluforcloud.com)的早期试用预览版展示了IBM用于内存数据库和数据仓库的业务分析技术。同样在大会上宣布的用于IT基础设施优化的IBM 智慧云预测分析洞察(SmartCloud Analytics Predictive Insights)软件旨在将IT系统中的操作数据和日志文件转化为商业智能。IBM表示,使用智慧云预测分析洞察软件,企业可以实时筛选TB级大小的IT运营数据,并仅着眼于那些对IT网络性能至关重要的趋势。该软件可以对企业的IT系统进行学习、推理和感知。IBM称,该软件还能随着业务和系统性能状况的变化,适应因系统配置较差造成的错误,并通过不断地更新设置主动清除这些错误。
在这些系统性工具的帮助下,大数据分析人员就能高效便捷地完成分析工作,实现对决策的有效支撑。
实时性是分析的关键
IBM院士、实体分析首席科学家Jeff Jonas指出,目前来看,业界内企业对大数据的理解各有不同,对到底什么是大数据并没有形成统一的认知。
“在大数据的应用上,有的企业所做的是从数据中挖掘出价值,有的企业则试图用大数据解决原来用传统手段无法解决的问题。需要指出的是,大数据并不只是Hadoop。Hadoop指的是一个批量分析的过程。”Jeff Jonas表示,在IBM所提出的有关大数据的4V(数量Volume、多样性Variety、速度Velocity和真实性Veracity)说法中,速度是非常关键的一个因素,例如,当用户要基于数据分析的结果来决策股票交易行为时,他希望越快越好。如果分析报告需要1个小时之后才能拿到,这实际上对该用户的决策基本上没有任何意义了。
因此,IBM特别强调了大数据分析的时效性,力图缩短分析时间,提高时效性,这样就可以最大程度地给决策提供价值。IBM在这方面的典型技术就是流处理技术,该技术能够实时对数据进行处理。以IBM研究了5年、研发代号为G2的技术为例,这就是一个典型的实时进行大数据处理的技术。
在大数据领域,令Jeff Jonas感到惊喜的有三个重要的发现。他兴致勃勃地分享了这三个发现:“首先,我们发现数据是呈现正态分布的,这为数据应用提供了良好的基础。第二,‘坏的数据’不再令人厌恶,而是成为了我们的朋友。‘坏的数据’往往是因为人为因素造成的,这种‘坏’可以通过自我修正机制来纠错。一个典型的例子就是Google的搜索,当你输入一个(错误的)关键词之后,Google会根据你的输入结合常见输入给出推荐的搜索关键词和相应搜索结果。第三,跟人的直觉相反,(已有的)数据越多,计算反而越快。这可以用拼图来解释,当拼图已经完成了大部分(已有的数据)时,需要的计算量会非常小,而在拼图刚刚开始时,需要的计算量就很大。这是数据相关性带来的好处。”
不过,他又补充了一点,虽然要把“坏的数据”当成朋友,但并不意味着可以盲目放弃数据的准确性,“显然,在我们的控制能力范围之内,数据仍旧需要尽可能地精确。而在我们的能力控制范围之外,大数据技术本身就需要解决(数据精度不够的)类似问题”。
IBM大数据的三个方向
要了解下一阶段IBM在大数据领域的动向,IBM大数据实验室总监Aya Soffer女士最有话语权。在她的领导下,IBM全球12个实验室在大数据领域孜孜不倦进行着研发工作。
Aya Soffer强调,她所领导的IBM实验室并不是对已成熟的技术做商业化研发,而是注重前瞻和突破性的研究,其工作方向包括三大部分:第一,如何从非结构化的流媒体数据中抽取数据帮助决策和分析,例如在音频和视频当中抽取特殊数据帮助决策分析,目前的难点在于如何理解影像背后的意义,即语义分析和语境分析;第二,数据可视化,即如何将分析得出的结果以可视化的方式让业务用户正确理解;第三是可视化与地理位置信息相结合,例如在港口监控船只,根据异常情况结合人员分析来判断并实现更快的动作。
至于这些前瞻性的研究成果需要多长时间才能应用到产品中去,Aya Soffer表示谨慎乐观:“这个过程至少需要1~2年的时间。大数据实验室也在跟产品部门合作,以实现一些小的创新,这些小创新在一两年内就可以变成商业化的产品。但如果是一些具有跨时代意义的大创新,转化为商业化产品所需要的时间就非常长了。例如Watson系统,我们从2006年就开始做了,但真正实现商业化只有不到一年的时间。”不过,她补充道,现在外面环境的发展使得软件的开发周期越来越短,开发速度越来越快,云计算也会在一定程度上让研发人员把实验室里的创新更快地转化为产品,提供到市场上。
今年,IBM向与会者展示了其面向大数据时代的诸多新产品和新方案,并遵循提供整体解决方案的理念,结合IBM自身的优势,从服务、实施和方法论等多个方面,为企业用户提供了颇具参考意义的大数据实施范本。
大数据分析需求将增长20%
在未来5年内,全球IT市场对大数据分析人员的需求将增长20%以上——IBM商业分析部总经理Les Rechan这样告诉我们,这是因为对企业而言,无论是客户管理、运营、风险控制、采购还是IT,都与大数据分析密切相关,都需要依据大数据分析的结果来进行和改进。
要满足这种需求,必须将大数据分析的思想注入企业文化,并为之打造新的架构,创建大数据分析的平台,在此基础上,实现管理风险的可控。
IBM积极提升自身提供大数据分析工具的能力,以让更多的技术人员成长为合格的大数据分析人员。据IBM高级副总裁兼软件与系统集团执行总裁Steve Mills介绍,在过去的一年里,IBM总共花了200亿美元进行收购,以“进入由大数据带来的卓越决策世界”。
IBM大数据实验室总监Aya Soffer表示,收购对IBM来说是好事,意味着IBM不需要重新进行创新,而只需要把主要精力放在整合和提升收购的产品上,因为收购来的产品已经具备了一定的技术沉淀,IBM大数据实验室的使命之一就是对新收购的产品进行一定的技术上的合作和改进。
通过收购和自主研发的双管齐下,IBM离“利用大数据分析获得卓越决策”的目标越来越近——其InfoSphere分析产品提供市面上任何其他产品4倍的性能,而且通过BLU加速器,该公司的相关产品拥有比同类产品快38倍的数据处理速度。
进一步,IBM将其大数据分析产品与云计算有机结合起来。IBM最近收购的SoftLayer正迅速成为其云产品组合的基础。值得一提的是,IBM斥资20亿美元收购SoftLayer后的4个月里,已经增加了超过1000个新客户。
在本次大会上推出的BLU加速云(bluforcloud.com)的早期试用预览版展示了IBM用于内存数据库和数据仓库的业务分析技术。同样在大会上宣布的用于IT基础设施优化的IBM 智慧云预测分析洞察(SmartCloud Analytics Predictive Insights)软件旨在将IT系统中的操作数据和日志文件转化为商业智能。IBM表示,使用智慧云预测分析洞察软件,企业可以实时筛选TB级大小的IT运营数据,并仅着眼于那些对IT网络性能至关重要的趋势。该软件可以对企业的IT系统进行学习、推理和感知。IBM称,该软件还能随着业务和系统性能状况的变化,适应因系统配置较差造成的错误,并通过不断地更新设置主动清除这些错误。
在这些系统性工具的帮助下,大数据分析人员就能高效便捷地完成分析工作,实现对决策的有效支撑。
实时性是分析的关键
IBM院士、实体分析首席科学家Jeff Jonas指出,目前来看,业界内企业对大数据的理解各有不同,对到底什么是大数据并没有形成统一的认知。
“在大数据的应用上,有的企业所做的是从数据中挖掘出价值,有的企业则试图用大数据解决原来用传统手段无法解决的问题。需要指出的是,大数据并不只是Hadoop。Hadoop指的是一个批量分析的过程。”Jeff Jonas表示,在IBM所提出的有关大数据的4V(数量Volume、多样性Variety、速度Velocity和真实性Veracity)说法中,速度是非常关键的一个因素,例如,当用户要基于数据分析的结果来决策股票交易行为时,他希望越快越好。如果分析报告需要1个小时之后才能拿到,这实际上对该用户的决策基本上没有任何意义了。
因此,IBM特别强调了大数据分析的时效性,力图缩短分析时间,提高时效性,这样就可以最大程度地给决策提供价值。IBM在这方面的典型技术就是流处理技术,该技术能够实时对数据进行处理。以IBM研究了5年、研发代号为G2的技术为例,这就是一个典型的实时进行大数据处理的技术。
在大数据领域,令Jeff Jonas感到惊喜的有三个重要的发现。他兴致勃勃地分享了这三个发现:“首先,我们发现数据是呈现正态分布的,这为数据应用提供了良好的基础。第二,‘坏的数据’不再令人厌恶,而是成为了我们的朋友。‘坏的数据’往往是因为人为因素造成的,这种‘坏’可以通过自我修正机制来纠错。一个典型的例子就是Google的搜索,当你输入一个(错误的)关键词之后,Google会根据你的输入结合常见输入给出推荐的搜索关键词和相应搜索结果。第三,跟人的直觉相反,(已有的)数据越多,计算反而越快。这可以用拼图来解释,当拼图已经完成了大部分(已有的数据)时,需要的计算量会非常小,而在拼图刚刚开始时,需要的计算量就很大。这是数据相关性带来的好处。”
不过,他又补充了一点,虽然要把“坏的数据”当成朋友,但并不意味着可以盲目放弃数据的准确性,“显然,在我们的控制能力范围之内,数据仍旧需要尽可能地精确。而在我们的能力控制范围之外,大数据技术本身就需要解决(数据精度不够的)类似问题”。
IBM大数据的三个方向
要了解下一阶段IBM在大数据领域的动向,IBM大数据实验室总监Aya Soffer女士最有话语权。在她的领导下,IBM全球12个实验室在大数据领域孜孜不倦进行着研发工作。
Aya Soffer强调,她所领导的IBM实验室并不是对已成熟的技术做商业化研发,而是注重前瞻和突破性的研究,其工作方向包括三大部分:第一,如何从非结构化的流媒体数据中抽取数据帮助决策和分析,例如在音频和视频当中抽取特殊数据帮助决策分析,目前的难点在于如何理解影像背后的意义,即语义分析和语境分析;第二,数据可视化,即如何将分析得出的结果以可视化的方式让业务用户正确理解;第三是可视化与地理位置信息相结合,例如在港口监控船只,根据异常情况结合人员分析来判断并实现更快的动作。
至于这些前瞻性的研究成果需要多长时间才能应用到产品中去,Aya Soffer表示谨慎乐观:“这个过程至少需要1~2年的时间。大数据实验室也在跟产品部门合作,以实现一些小的创新,这些小创新在一两年内就可以变成商业化的产品。但如果是一些具有跨时代意义的大创新,转化为商业化产品所需要的时间就非常长了。例如Watson系统,我们从2006年就开始做了,但真正实现商业化只有不到一年的时间。”不过,她补充道,现在外面环境的发展使得软件的开发周期越来越短,开发速度越来越快,云计算也会在一定程度上让研发人员把实验室里的创新更快地转化为产品,提供到市场上。