论文部分内容阅读
“大数据将是下一个社会发展的“石油”和“金矿”。无论是个人、企业还是国家,谁能更好地抓住数据、理解数据、分析数据,谁就能在下一波的社会竞争中脱颖而出。”
这是复旦大学计算机研究所所长施伯乐为涂子沛的新书《大数据》写的推荐语。
仿佛只是一夜之间 “大数据(Big Data)”火了。
不是说这本书,而是这本书中推及的“大数据”概念。于是,一个个关于大数据的传奇故事,一桩桩争夺大数据制高点而展开的并购案,一个接一个轮流发布大数据战略的厂商,还有那一场场以大数据为主题的各种研讨会,无一不在宣告,商界尤其是IT界又迎来了新的兴奋点、新的机遇,同时,也是新的挑战。
Clustrix,就是这样一个为企业构建高度扩容数据库的大数据创业公司,最近再次获得红杉资本、USVP、ATA等数家风投公司675万美元投资。
互联网造富在于它不断提供各种可能性,而互联网的通病在于,当一种可能性出现,随即就是一整片的跟风之作,有成功者、有夭折者,最终瓦解。
在残忍的互联网丛林中,我们欣喜于新事物的出现,却也越来越不忍去细剖可能的失败。本期“钱道”不再追星般追逐Clustrix,我们回到一切成功与失败的源头,讲述一个新的、备受追捧的创业方向是如何产生的?
“数”中自有黄金屋
严格地说,大数据并非一个新词,被誉为“数据仓库之父”的Bill Inmon早在上个世纪90年代就经常将“Big Data”挂在嘴边了。
大数据之所以在近一两年迅速走红,要归结于互联网、移动设备、物联网和云计算的迅猛发展,使得人类每分每秒都在产生巨量数据——从出现文明到2003年,人类总共才创造 5 EB(5 ExaBytes)的数据,但是我们现在仅在两天内就创造出相同的数据量。
来自IDC全球存储及大数据研究项目副总裁Benjamin Woo表示,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB×35=37580963840TB),也就是说全球大概需要376亿个1TB硬盘来存储数据。
而关于大数据所蕴含的价值,有许多为人所津津乐道的故事可以佐证:
美国印第安纳大学和英国曼彻斯特大学的学者通过提取Twitter上的非结构化数据分析公众情绪,再将情绪曲线与道琼斯工业指数进行对照分析,居然发现了原来可以提前3至4天预测股市大盘走势。基于此,他们已经推出了欧洲第一只基于社交媒体的对冲基金。
又例如,英国的科学家根据Twitter的数据来跟踪流感的暴发。他们主要基于用户发布信息中的关键词,例如“我头痛”等,并结合用户的发布地点,按区域与英国卫生部的官方数据进行了比较,最终建立起一个预测模型。创业团队SickWeather甚至以预测疾病为主题开展了自己的创业项目。
像这样的大数据经典案例还有不少,而整个商业社会对大数据将带来的影响给出了极高的评价—
麦肯锡全球研究机构在2011年5月发布的《大数据:创新、竞争和生产力的下一个前沿领域》中表示,充分利用大数据可帮助全球个人定位服务提供商增加1000亿美元收入、帮助欧洲公共部门的管理每年提升2500亿美元产值、帮助美国医疗保健行业每年提升3000亿美元产值,并可帮助美国零售业获得60%以上的净利润增长。
在今年年初的瑞士达沃斯论坛上,一份题为《大数据,大影响》(Big Data,Big Impact)的报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。
更加值得关注的则是,美国已经把大数据上升到了国家战略的层面。根据美国白宫今年3月29日新闻,奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,希望增强收集海量数据、分析萃取信息的能力。
“可怕”的数据
在这么多经典案例和研究文章的支撑下,大数据一步步成为人们口中所说的最强劲的未来趋势,已无法阻挡。而同时大数据也必将成为竞争中的可怕工具,可谓成也数据败也数据,要看经营者对其重视程度。
Facebook这个拥有庞大网络用户数据的新公司,在5月18日的IPO就被“数据”了一把。在上市当天,全球机构频繁更改Facebook走势的预测结果,却最终敌不过Twitter的准确率。
数据分析领域新星DataSift监测了社交媒体平台Twitter在5月18日的情绪变化与Facebook股价波动,并发现了两者之间的关联性。
在Facebook开盘前,Twitter上网民的情绪逐渐转向负面,25分钟之后,Facebook的股价出现下跌;而当Twitter上的情感转向正面时,8分钟之后,Facebook股价开始反弹。
最终,当股市接近收盘时,Twitter上的情感转向负面,Facebook的股价又开始下跌。
这并不是DataSift的首创,此前已有根据网民意愿监测结果选择股票买卖的案例。在海量数据中发掘有效信息,将成为企业竞争力的关键。
索尼公司的教训似乎也能反证出数据的重要性。根据索尼的公告,2011财年(截至2012年3月31日)预计净亏损5200亿日元(约合64亿美元),创公司成立以来最高亏损纪录。索尼公司前首席执行官出井伸之说,新一代基于互联网基因的企业的核心能力,是利用新模式和新技术,更贴近消费者,更深刻理解需求,高效分析信息并作出判断,而像索尼这样传统的产品公司,仅仅只是在自己营造的理想国里造产品,无视用户数据的反馈和分析,最终只能沦为二三流公司。
更多的公司和机构已经意识到大数据的重要性。
IT大佬齐上阵
一个又一个带有传奇色彩的大数据“故事”,一个又一个带有“悲情”色彩的教训,足以让向来具有先决意识的IT界为之沸腾。
IT厂商们早已开始为此排兵布阵。他们或发布战略、或推出产品,各种合作、收购动作频频,着实热闹。
例如,2010年IBM收购了数据分析公司Netezza,并在去年5月推出了InfoSphere BigInsights软件(该软件包包括Apache Hadoop发行版);惠普不仅将Vertica揽入怀中,还重金收购了对Autonomy,并于今年推出了与Vertica 6实现高级集成了的大数据应用平台HP AppSystem for Apache Hadoop;EMC自收购Greenplum后,很快发布支持大数据分析的下一代EMC Greenplum统一分析平台;甲骨文则通过NoSQL数据库和Big Data Appliance(大数据机)让客户直接拥有处理非结构化海量数据的能力;而HANA则让SAP享有风光无限;戴尔选择联手Cloudera跻身Hadoop阵营;微软已推出了基于Azure云平台的Hadoop服务;就连传统芯片厂商英特尔也宣布,不仅继续打造的高效IT基础设施,还推出了针对英特尔平台优化的Hadoop产品和服务。
此外,Cloudera、Splunk 、Clustrix、1010data等一些新兴的大数据企业异军突起,它们力争在未来庞大的市场需求中打拼出自己的创新空间。尤其是Clustrix,它已注定成为本次浪潮中的先锋话题。
不过,令人较为遗憾的是,国内类似的大数据创新企业还比较少,希望这一局面能够尽早得以改变,当然这也更加说明,大数据领域的创业,在中国的空间更广大,已然可以想象,在云技术这个当下热门话题之后,大数据将是创业者必抢的制高点。
这是复旦大学计算机研究所所长施伯乐为涂子沛的新书《大数据》写的推荐语。
仿佛只是一夜之间 “大数据(Big Data)”火了。
不是说这本书,而是这本书中推及的“大数据”概念。于是,一个个关于大数据的传奇故事,一桩桩争夺大数据制高点而展开的并购案,一个接一个轮流发布大数据战略的厂商,还有那一场场以大数据为主题的各种研讨会,无一不在宣告,商界尤其是IT界又迎来了新的兴奋点、新的机遇,同时,也是新的挑战。
Clustrix,就是这样一个为企业构建高度扩容数据库的大数据创业公司,最近再次获得红杉资本、USVP、ATA等数家风投公司675万美元投资。
互联网造富在于它不断提供各种可能性,而互联网的通病在于,当一种可能性出现,随即就是一整片的跟风之作,有成功者、有夭折者,最终瓦解。
在残忍的互联网丛林中,我们欣喜于新事物的出现,却也越来越不忍去细剖可能的失败。本期“钱道”不再追星般追逐Clustrix,我们回到一切成功与失败的源头,讲述一个新的、备受追捧的创业方向是如何产生的?
“数”中自有黄金屋
严格地说,大数据并非一个新词,被誉为“数据仓库之父”的Bill Inmon早在上个世纪90年代就经常将“Big Data”挂在嘴边了。
大数据之所以在近一两年迅速走红,要归结于互联网、移动设备、物联网和云计算的迅猛发展,使得人类每分每秒都在产生巨量数据——从出现文明到2003年,人类总共才创造 5 EB(5 ExaBytes)的数据,但是我们现在仅在两天内就创造出相同的数据量。
来自IDC全球存储及大数据研究项目副总裁Benjamin Woo表示,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB×35=37580963840TB),也就是说全球大概需要376亿个1TB硬盘来存储数据。
而关于大数据所蕴含的价值,有许多为人所津津乐道的故事可以佐证:
美国印第安纳大学和英国曼彻斯特大学的学者通过提取Twitter上的非结构化数据分析公众情绪,再将情绪曲线与道琼斯工业指数进行对照分析,居然发现了原来可以提前3至4天预测股市大盘走势。基于此,他们已经推出了欧洲第一只基于社交媒体的对冲基金。
又例如,英国的科学家根据Twitter的数据来跟踪流感的暴发。他们主要基于用户发布信息中的关键词,例如“我头痛”等,并结合用户的发布地点,按区域与英国卫生部的官方数据进行了比较,最终建立起一个预测模型。创业团队SickWeather甚至以预测疾病为主题开展了自己的创业项目。
像这样的大数据经典案例还有不少,而整个商业社会对大数据将带来的影响给出了极高的评价—
麦肯锡全球研究机构在2011年5月发布的《大数据:创新、竞争和生产力的下一个前沿领域》中表示,充分利用大数据可帮助全球个人定位服务提供商增加1000亿美元收入、帮助欧洲公共部门的管理每年提升2500亿美元产值、帮助美国医疗保健行业每年提升3000亿美元产值,并可帮助美国零售业获得60%以上的净利润增长。
在今年年初的瑞士达沃斯论坛上,一份题为《大数据,大影响》(Big Data,Big Impact)的报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。
更加值得关注的则是,美国已经把大数据上升到了国家战略的层面。根据美国白宫今年3月29日新闻,奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,希望增强收集海量数据、分析萃取信息的能力。
“可怕”的数据
在这么多经典案例和研究文章的支撑下,大数据一步步成为人们口中所说的最强劲的未来趋势,已无法阻挡。而同时大数据也必将成为竞争中的可怕工具,可谓成也数据败也数据,要看经营者对其重视程度。
Facebook这个拥有庞大网络用户数据的新公司,在5月18日的IPO就被“数据”了一把。在上市当天,全球机构频繁更改Facebook走势的预测结果,却最终敌不过Twitter的准确率。
数据分析领域新星DataSift监测了社交媒体平台Twitter在5月18日的情绪变化与Facebook股价波动,并发现了两者之间的关联性。
在Facebook开盘前,Twitter上网民的情绪逐渐转向负面,25分钟之后,Facebook的股价出现下跌;而当Twitter上的情感转向正面时,8分钟之后,Facebook股价开始反弹。
最终,当股市接近收盘时,Twitter上的情感转向负面,Facebook的股价又开始下跌。
这并不是DataSift的首创,此前已有根据网民意愿监测结果选择股票买卖的案例。在海量数据中发掘有效信息,将成为企业竞争力的关键。
索尼公司的教训似乎也能反证出数据的重要性。根据索尼的公告,2011财年(截至2012年3月31日)预计净亏损5200亿日元(约合64亿美元),创公司成立以来最高亏损纪录。索尼公司前首席执行官出井伸之说,新一代基于互联网基因的企业的核心能力,是利用新模式和新技术,更贴近消费者,更深刻理解需求,高效分析信息并作出判断,而像索尼这样传统的产品公司,仅仅只是在自己营造的理想国里造产品,无视用户数据的反馈和分析,最终只能沦为二三流公司。
更多的公司和机构已经意识到大数据的重要性。
IT大佬齐上阵
一个又一个带有传奇色彩的大数据“故事”,一个又一个带有“悲情”色彩的教训,足以让向来具有先决意识的IT界为之沸腾。
IT厂商们早已开始为此排兵布阵。他们或发布战略、或推出产品,各种合作、收购动作频频,着实热闹。
例如,2010年IBM收购了数据分析公司Netezza,并在去年5月推出了InfoSphere BigInsights软件(该软件包包括Apache Hadoop发行版);惠普不仅将Vertica揽入怀中,还重金收购了对Autonomy,并于今年推出了与Vertica 6实现高级集成了的大数据应用平台HP AppSystem for Apache Hadoop;EMC自收购Greenplum后,很快发布支持大数据分析的下一代EMC Greenplum统一分析平台;甲骨文则通过NoSQL数据库和Big Data Appliance(大数据机)让客户直接拥有处理非结构化海量数据的能力;而HANA则让SAP享有风光无限;戴尔选择联手Cloudera跻身Hadoop阵营;微软已推出了基于Azure云平台的Hadoop服务;就连传统芯片厂商英特尔也宣布,不仅继续打造的高效IT基础设施,还推出了针对英特尔平台优化的Hadoop产品和服务。
此外,Cloudera、Splunk 、Clustrix、1010data等一些新兴的大数据企业异军突起,它们力争在未来庞大的市场需求中打拼出自己的创新空间。尤其是Clustrix,它已注定成为本次浪潮中的先锋话题。
不过,令人较为遗憾的是,国内类似的大数据创新企业还比较少,希望这一局面能够尽早得以改变,当然这也更加说明,大数据领域的创业,在中国的空间更广大,已然可以想象,在云技术这个当下热门话题之后,大数据将是创业者必抢的制高点。