论文部分内容阅读
大数据体现出三大特征
回顾历史,30年前我国大学里还没有一个计算机系,而30年后的现在每个像样的大学都有计算机系;现在大学里还没有任何一个数据科学系,而30年以后所有学校都会有。
我认为,大家所说的大数据并非横空出世的海量数据,大数据有很多因素支撑着它。主要体现在以下几个方面:
一是超大数量,数量之大超越常规管理和处理;二是超高增速,过去2年的数据超过以往所有历史数据;三是成长中的大数据分析产业。比如,一家以大数据分析为口号的IT搜索引擎公司Splunk 2012年4月19日在Nasdaq首日上市IPO即上涨109%,翻了一倍多,与2011年5月LinkedIn创造的网络公司IPO业绩最高记录持平。
另外,大数据还体现出新的特征,也就是“三V特征”:Volume(数量)、Variety(多样化)、Velocity(增速)。
具体来说,数量方面,据估计,目前世界数据总量已经达到zettabytes (1021 bytes)的数量级, 大企业的数据量已经达到petabytes (1015 bytes)数量级。多样化表现在两个方面,一是世界上已有数据的80%是非结构化的,二是数据间的互相作用使得其关联性更加复杂。增速方面,以2010年为例,每分钟35小时录象上传Youtube、每月60亿张照片上传Facebook、每天2亿Tweets上传Twitter、每天3000亿件电子邮件发送 。由此可见,大数据发展的前景是一种新的“知识基础设施”正在形成,一个大数据的新时代正在到来,其对商业、政府、民主和文化的影响将是巨大的。
大数据背后的核心是人,那就是数据科学家。数据科学家应具备三大核心技能,一是具备数学知识为数据集构模,二是具备工程技能建成数据模型分析系统,三是发现见解,从数据中讲出故事来。目前,数据人才面临的最大问题是数据人才的挑战。2011年6月麦肯锡报告称,到2018美国将短缺14万~19万具有高级技能的数据分析家,还需增加150万能提出正确问题和利用分析结果的管理者和分析师。
对于大数据会不会造成新的鸿沟的问题?我的观点是肯定的,我认为,能不能利用大数据将造成新的“数据鸿沟”、大数据利用能力将成为这种差距的放大器。
两大关键词解读美国大数据计划
2012年3月29日美国政府发布大数据研发倡议(Big?Data?R&D?Initiative),涉及政府六大部门。如何解读美国大数据国家战略,我认为要从两个关键词进行解读。美国政府大数据研发倡议为什么值得关注?如果说,以往大数据还只是ICT领域的重大发展趋势的话,那么这个倡议的出场,赋予大数据以国家战略的重要意义。不仅是以往我们认识到的经济、技术、城市发展和产业意义,还可能影响国家的军事战略,我们单位的研究小组跟踪大数据有一两年,对大数据的快速增长还没有足够的预料。
我自己是从两个关键词来看这个大数据研发倡议的国家战略意义的。
一是“initiative”(通常译为“倡议”),查了维基百科,“倡议”确是其本意,即政府提出一个想法,比如对宪法提出一个修正案,接下去要全民公决(referendum,当然真正通过十分困难),但是在有些情况下initiative就是一个政府计划,最近常常听到的有“开放政府倡议”(在这类情况下可能应该译为“计划”)。我记得当年里根政府的星球大战计划,原文就是Strategic Defense Initiatives,那可是个庞然大物。所以说initiative可大可小。这次的大数据研发倡议直接的资金不多,才2亿美元,但是涉及6大联邦部门,而中间两个与国防有关:国防部和国防高级研究计划局,所以不可忽视。当然目前不必过度反应,当年曾经有“星球大战计划引诱苏联政府投入巨大资源开展军备竞赛,以致促使其加速解体”一说,尽管可能是无稽之谈(苏联垮台的根本原因在于内部),但是当时无论苏联还是中国确实将这个探索性的计划看得过重确是事实。但是这个大数据计划可能造就一场军事战略的革命,作为一个大国肯定是忽略不得,更是输不起的。
其二是“deal”。奥巴马宣布这个计划的当天,白宫网站发表美国科技政策办公室负责政策的副主任Tom Kalil 的文章,标题为“big data is a big deal”,这个deal当然是交易、买卖的意思,但是如果要翻译的话我建议译为“大数据是个大政”。“大政”这个说法是不是重了点?我的依据是,当年罗斯福的“新政”,原文就是“New Deal”。他们经常喜欢用些貌似“低俗”的说法来称呼重大的事情,在美国这就是政治。
回顾历史,30年前我国大学里还没有一个计算机系,而30年后的现在每个像样的大学都有计算机系;现在大学里还没有任何一个数据科学系,而30年以后所有学校都会有。
我认为,大家所说的大数据并非横空出世的海量数据,大数据有很多因素支撑着它。主要体现在以下几个方面:
一是超大数量,数量之大超越常规管理和处理;二是超高增速,过去2年的数据超过以往所有历史数据;三是成长中的大数据分析产业。比如,一家以大数据分析为口号的IT搜索引擎公司Splunk 2012年4月19日在Nasdaq首日上市IPO即上涨109%,翻了一倍多,与2011年5月LinkedIn创造的网络公司IPO业绩最高记录持平。
另外,大数据还体现出新的特征,也就是“三V特征”:Volume(数量)、Variety(多样化)、Velocity(增速)。
具体来说,数量方面,据估计,目前世界数据总量已经达到zettabytes (1021 bytes)的数量级, 大企业的数据量已经达到petabytes (1015 bytes)数量级。多样化表现在两个方面,一是世界上已有数据的80%是非结构化的,二是数据间的互相作用使得其关联性更加复杂。增速方面,以2010年为例,每分钟35小时录象上传Youtube、每月60亿张照片上传Facebook、每天2亿Tweets上传Twitter、每天3000亿件电子邮件发送 。由此可见,大数据发展的前景是一种新的“知识基础设施”正在形成,一个大数据的新时代正在到来,其对商业、政府、民主和文化的影响将是巨大的。
大数据背后的核心是人,那就是数据科学家。数据科学家应具备三大核心技能,一是具备数学知识为数据集构模,二是具备工程技能建成数据模型分析系统,三是发现见解,从数据中讲出故事来。目前,数据人才面临的最大问题是数据人才的挑战。2011年6月麦肯锡报告称,到2018美国将短缺14万~19万具有高级技能的数据分析家,还需增加150万能提出正确问题和利用分析结果的管理者和分析师。
对于大数据会不会造成新的鸿沟的问题?我的观点是肯定的,我认为,能不能利用大数据将造成新的“数据鸿沟”、大数据利用能力将成为这种差距的放大器。
两大关键词解读美国大数据计划
2012年3月29日美国政府发布大数据研发倡议(Big?Data?R&D?Initiative),涉及政府六大部门。如何解读美国大数据国家战略,我认为要从两个关键词进行解读。美国政府大数据研发倡议为什么值得关注?如果说,以往大数据还只是ICT领域的重大发展趋势的话,那么这个倡议的出场,赋予大数据以国家战略的重要意义。不仅是以往我们认识到的经济、技术、城市发展和产业意义,还可能影响国家的军事战略,我们单位的研究小组跟踪大数据有一两年,对大数据的快速增长还没有足够的预料。
我自己是从两个关键词来看这个大数据研发倡议的国家战略意义的。
一是“initiative”(通常译为“倡议”),查了维基百科,“倡议”确是其本意,即政府提出一个想法,比如对宪法提出一个修正案,接下去要全民公决(referendum,当然真正通过十分困难),但是在有些情况下initiative就是一个政府计划,最近常常听到的有“开放政府倡议”(在这类情况下可能应该译为“计划”)。我记得当年里根政府的星球大战计划,原文就是Strategic Defense Initiatives,那可是个庞然大物。所以说initiative可大可小。这次的大数据研发倡议直接的资金不多,才2亿美元,但是涉及6大联邦部门,而中间两个与国防有关:国防部和国防高级研究计划局,所以不可忽视。当然目前不必过度反应,当年曾经有“星球大战计划引诱苏联政府投入巨大资源开展军备竞赛,以致促使其加速解体”一说,尽管可能是无稽之谈(苏联垮台的根本原因在于内部),但是当时无论苏联还是中国确实将这个探索性的计划看得过重确是事实。但是这个大数据计划可能造就一场军事战略的革命,作为一个大国肯定是忽略不得,更是输不起的。
其二是“deal”。奥巴马宣布这个计划的当天,白宫网站发表美国科技政策办公室负责政策的副主任Tom Kalil 的文章,标题为“big data is a big deal”,这个deal当然是交易、买卖的意思,但是如果要翻译的话我建议译为“大数据是个大政”。“大政”这个说法是不是重了点?我的依据是,当年罗斯福的“新政”,原文就是“New Deal”。他们经常喜欢用些貌似“低俗”的说法来称呼重大的事情,在美国这就是政治。