论文部分内容阅读
《中国经济周刊》:大数据的真正价值是什么,它可以为中国带来什么?
舍恩伯格:大数据的价值并不仅仅局限于它初始被收集的目的,而在于它之后可以服务于其他目标而被重复使用。因此,大数据的价值将会是所有这些用途的总和,并且将远远大于其初次使用的价值。正如在海洋中漂浮的冰山,起初我们只能够看到它浮在水面上的一部分,但事实上冰山的体积要大得多。随着更便宜的存储和分析技术、分析工具的发展,以及“大数据观”的建立,我们会获得大数据“表面下”的价值。
目前,中国依然缺乏全面综合的数据收集。事实上,与其他国家相比,中国具有根本的优势:中国很大,因此可以提供远超他国的、多种用途所需的数据规模。此外,中国具有值得骄傲的数学传统,这在大数据时代非常有益。
《中国经济周刊》:目前,大数据技术成本是否过高?
舍恩伯格:是的,正是这个原因阻碍了大数据分析的发展。在许多方面,我们仍然生活在一个“小数据”时代,在这个时代收集数据时非常耗时、昂贵和困难。因此,对许多问题的解决是基于尽可能少的数据收集。这也意味着,如果没有特定的数据,我们不能回答不同的问题,否则我们的样本就会太小,取样会产生偏见。而在大数据时代,这些都会得到改变:数据收集和存储将会更便宜,更容易;重复使用数据的成本将会更低;数据分析工具也会更加优化。未来,大数据是“付得起的”。
《中国经济周刊》:谁将会成为大数据的真正受益者?公司、政府还是民众?
舍恩伯格:我相信大数据将带来所有层面的变化——并且是积极的变化。公司将会受益,并不仅仅是因为其现有的流程将会更加廉价和有效,更重要的是,在大数据的驱动下,他们将会有能力提供新的商品和服务。这将会为现存企业和新创企业都带来巨大的机遇,当然前提是他们足够聪明并且反应迅速。
对政府来说,在政治决策过程中,将会更完善、更理性并且更基于事实。对于管理一个愈加复杂的社会,这是至关重要的。
民众也将受益,无论事关教育和卫生保障选择,还是具体到买哪一辆车,由他们自己做出的决定必将更好地服务于他们。
《中国经济周刊》:大数据在哪些方面存在安全问题?公司应如何保护其来源、流程和决策,防止盗窃和舞弊?
舍恩伯格:当数据变得有价值,保护它们就将成为关键。目前数据并不作为一项知识产权而受到保护,因此,版权和知识产权法将不足以应对可能的盗窃和挪用。我认为需要改善法律框架。问题是,建立这种框架或可导致公司不愿分享数据资源,而只针对一些他们信任的合作伙伴做有限的资源共享。这种情况就会导致数据市场产生流动性问题,是十分让人困扰的。最终,解决方案可能会是法律、科技、组织和行为方式的综合体。
舍恩伯格:大数据的价值并不仅仅局限于它初始被收集的目的,而在于它之后可以服务于其他目标而被重复使用。因此,大数据的价值将会是所有这些用途的总和,并且将远远大于其初次使用的价值。正如在海洋中漂浮的冰山,起初我们只能够看到它浮在水面上的一部分,但事实上冰山的体积要大得多。随着更便宜的存储和分析技术、分析工具的发展,以及“大数据观”的建立,我们会获得大数据“表面下”的价值。
目前,中国依然缺乏全面综合的数据收集。事实上,与其他国家相比,中国具有根本的优势:中国很大,因此可以提供远超他国的、多种用途所需的数据规模。此外,中国具有值得骄傲的数学传统,这在大数据时代非常有益。
《中国经济周刊》:目前,大数据技术成本是否过高?
舍恩伯格:是的,正是这个原因阻碍了大数据分析的发展。在许多方面,我们仍然生活在一个“小数据”时代,在这个时代收集数据时非常耗时、昂贵和困难。因此,对许多问题的解决是基于尽可能少的数据收集。这也意味着,如果没有特定的数据,我们不能回答不同的问题,否则我们的样本就会太小,取样会产生偏见。而在大数据时代,这些都会得到改变:数据收集和存储将会更便宜,更容易;重复使用数据的成本将会更低;数据分析工具也会更加优化。未来,大数据是“付得起的”。
《中国经济周刊》:谁将会成为大数据的真正受益者?公司、政府还是民众?
舍恩伯格:我相信大数据将带来所有层面的变化——并且是积极的变化。公司将会受益,并不仅仅是因为其现有的流程将会更加廉价和有效,更重要的是,在大数据的驱动下,他们将会有能力提供新的商品和服务。这将会为现存企业和新创企业都带来巨大的机遇,当然前提是他们足够聪明并且反应迅速。
对政府来说,在政治决策过程中,将会更完善、更理性并且更基于事实。对于管理一个愈加复杂的社会,这是至关重要的。
民众也将受益,无论事关教育和卫生保障选择,还是具体到买哪一辆车,由他们自己做出的决定必将更好地服务于他们。
《中国经济周刊》:大数据在哪些方面存在安全问题?公司应如何保护其来源、流程和决策,防止盗窃和舞弊?
舍恩伯格:当数据变得有价值,保护它们就将成为关键。目前数据并不作为一项知识产权而受到保护,因此,版权和知识产权法将不足以应对可能的盗窃和挪用。我认为需要改善法律框架。问题是,建立这种框架或可导致公司不愿分享数据资源,而只针对一些他们信任的合作伙伴做有限的资源共享。这种情况就会导致数据市场产生流动性问题,是十分让人困扰的。最终,解决方案可能会是法律、科技、组织和行为方式的综合体。