论文部分内容阅读
摘 要:21世纪,随着互联网和信息技术的飞快发展,数据正在成为巨大的经济资产,成为新世纪的矿产和资源,为企业带来全新的创业方向、商业模式和投资机会。21世纪的学科不是经济学,也不是医学,是统计学在大数据时代的崛起。
关键词:统计学;大数据;利用;发展
统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。随着统计学发展的同时,一个大规模生产、分享和应用数据的时代正在开启:大数据的真实价值就像漂浮在海洋中的冰山,绝大部分的数据都隐藏在表面下等着人类去探索。
1 利用所有的数据
在传统的统计学中,由于记录,存储,分析数据的工具不够好,所以总是倾向于从总体中抽取样本来分析,因为统计学的一个目的就是用尽可能少的数据来证实可能重大的发现。统计学家证明:采样分析的准确性随着采样随机性的增大而大幅度提高,但是与样本数量的增大关系不大。当样本数量达到了某个值的时候,从新个体身上得到的信息会越来越少,就同经济学中的边际递减效应一样。
在大数据时代,不使用随机分析的方法,而是采用所有的数据。即“样本=总体”。统计抽样其实只是为了在技术受限的特定时期,解决当时存在的一些特定问题而产生的。慢慢的,就会抛弃样本分析。
2 接受不精确
对小数据而已,统计学已经可以把数据处理的很好了,但是在大数据时代,太多的数据使原始统计方法捉襟见肘,因为数据量的大增会使得结果不太精确。执迷于精确性是信息缺乏时代和模拟时代的产物,只有接受不精确性才能进入我们从未涉足的邻域。接受不精确是从“小数据”到“大数据”的重要转变之一。因为拥有更大的数据量所带来的利益远远超过增加一点精确性,所以也就能够接受不精确的存在了。要想得到大规模数据带来的好处,混乱应该是一种标准途径,而不应该是尽量避免。
3 追求相关关系而不是确定因果
在小数据时代,相关关系也是有的。统计分析的目的在于如何根据统计数据确定变量之间的关系形态及其关联的程度,并探索其内在的数量规律。人们在实践中发现,变量之间的关系分为两种:函数关系和相关关系。相关与回归是处理变量之间的一种统计方法。变量之间存在的不确定的数量关系,称为相关关系。一般来说,可以用散点图和相关系数来描述和测度相关关系。
相关关系的核心是量化两个数据之间的数理关系,它没有绝对,只有可能性。大数据的相关分析法更准确,更快,而且不易受偏见的影响。知道是什么就够了,没必要知道是什么。通过探求“是什么”而不是“为什么”,相关关系帮我们更好的了解这个世界。如果凡事皆有因果的话,那么我们就没有决定任何事的自由了。
4 数据的来源并非那么简单
在一般看来,要想得到一些你所需要的数据是需要通过各种不同方法测量或是记录才能得到,而有时候,数据会从你意想不到的地方得到。也许你精心地设计了你的实验或是探究,但是到了真正操作才会发现事情并不像你想象的那么简单。
首先,由于在大数据时代,数据不是那么的有规律,所以才要考虑数据的一系列问题。这些数据或是资料是不是一定要自己去得到,或是可以参考别人已经有过的结果,这样可以节省精力和时间。如果是参考别人的数据要考虑时效性和使用范围。也许不是专门为你的设想而准备的数据。大的数据库有着小数据库所没有的价值,大数据的核心就是挖掘出大的数据库所拥有的独特的价值。
5 数据的利用方式
在统计学中,对数据的利用不仅包括对数据求平均值,方差,分位点,可以的话还要得到数据中的某种关系或是联系,如父母的身高会不会对下一代产生影响,不仅要分析父母的身高,还要分析孩子的身高,从中发现有没有相关关系,得出自己的结论。
在大数据时代,数据没这么简单的让你下手,所以对数据的利用方法也随着情况的不同而不同。数据的用途已经从基本的用途移动到了二级用途,使得数据随着时间的推移而变得更有价值。明白了隐藏在冰山下面的绝大部分数据的价值后,创新型企业就能够提取其潜在价值并获得潜在的巨大收益。尽管如此,数据再利用的重要性还没有被充分认识到。要解锁这些数据,就必须通过新一代统计人员的不懈努力并借助新一代的方法和工具。
随着大数据的出现,数据的总和比部分更有价值。将数据的总体组合在一起,重组组合本身的价值也比单个更大。如果决定使用有生产价值的数据,就需要不断的更新数据库并淘汰无用的信息。即使数据基于基本用途的价值会减少,但潜在价值却仍然强大。潜在的数据价值需要通过创新的分析来释放。不出意外,给数据的潜在价值贴上价格标签会带来无限商机。
6 小结
个人认为统计学和数据挖掘一起可以更好的利用数据。一个可以对数据进行有效合理的分析,一个可以用多种多样的算法来更好地处理数据。在大数据时代,重要的是数据自身和大数据的思维观念。如果能做到数据,技能和思维三者具备,就能更好地服务于大数据时代,就能在大数据时代有非常大的竞争优势。
参考文献:
[1]维克多迈尔-舍恩伯格 肯尼斯 .库克耶.大数据时代.浙江人民出版社
[2]贾俊平.统计学第五版.中国人民大学出版社
关键词:统计学;大数据;利用;发展
统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。随着统计学发展的同时,一个大规模生产、分享和应用数据的时代正在开启:大数据的真实价值就像漂浮在海洋中的冰山,绝大部分的数据都隐藏在表面下等着人类去探索。
1 利用所有的数据
在传统的统计学中,由于记录,存储,分析数据的工具不够好,所以总是倾向于从总体中抽取样本来分析,因为统计学的一个目的就是用尽可能少的数据来证实可能重大的发现。统计学家证明:采样分析的准确性随着采样随机性的增大而大幅度提高,但是与样本数量的增大关系不大。当样本数量达到了某个值的时候,从新个体身上得到的信息会越来越少,就同经济学中的边际递减效应一样。
在大数据时代,不使用随机分析的方法,而是采用所有的数据。即“样本=总体”。统计抽样其实只是为了在技术受限的特定时期,解决当时存在的一些特定问题而产生的。慢慢的,就会抛弃样本分析。
2 接受不精确
对小数据而已,统计学已经可以把数据处理的很好了,但是在大数据时代,太多的数据使原始统计方法捉襟见肘,因为数据量的大增会使得结果不太精确。执迷于精确性是信息缺乏时代和模拟时代的产物,只有接受不精确性才能进入我们从未涉足的邻域。接受不精确是从“小数据”到“大数据”的重要转变之一。因为拥有更大的数据量所带来的利益远远超过增加一点精确性,所以也就能够接受不精确的存在了。要想得到大规模数据带来的好处,混乱应该是一种标准途径,而不应该是尽量避免。
3 追求相关关系而不是确定因果
在小数据时代,相关关系也是有的。统计分析的目的在于如何根据统计数据确定变量之间的关系形态及其关联的程度,并探索其内在的数量规律。人们在实践中发现,变量之间的关系分为两种:函数关系和相关关系。相关与回归是处理变量之间的一种统计方法。变量之间存在的不确定的数量关系,称为相关关系。一般来说,可以用散点图和相关系数来描述和测度相关关系。
相关关系的核心是量化两个数据之间的数理关系,它没有绝对,只有可能性。大数据的相关分析法更准确,更快,而且不易受偏见的影响。知道是什么就够了,没必要知道是什么。通过探求“是什么”而不是“为什么”,相关关系帮我们更好的了解这个世界。如果凡事皆有因果的话,那么我们就没有决定任何事的自由了。
4 数据的来源并非那么简单
在一般看来,要想得到一些你所需要的数据是需要通过各种不同方法测量或是记录才能得到,而有时候,数据会从你意想不到的地方得到。也许你精心地设计了你的实验或是探究,但是到了真正操作才会发现事情并不像你想象的那么简单。
首先,由于在大数据时代,数据不是那么的有规律,所以才要考虑数据的一系列问题。这些数据或是资料是不是一定要自己去得到,或是可以参考别人已经有过的结果,这样可以节省精力和时间。如果是参考别人的数据要考虑时效性和使用范围。也许不是专门为你的设想而准备的数据。大的数据库有着小数据库所没有的价值,大数据的核心就是挖掘出大的数据库所拥有的独特的价值。
5 数据的利用方式
在统计学中,对数据的利用不仅包括对数据求平均值,方差,分位点,可以的话还要得到数据中的某种关系或是联系,如父母的身高会不会对下一代产生影响,不仅要分析父母的身高,还要分析孩子的身高,从中发现有没有相关关系,得出自己的结论。
在大数据时代,数据没这么简单的让你下手,所以对数据的利用方法也随着情况的不同而不同。数据的用途已经从基本的用途移动到了二级用途,使得数据随着时间的推移而变得更有价值。明白了隐藏在冰山下面的绝大部分数据的价值后,创新型企业就能够提取其潜在价值并获得潜在的巨大收益。尽管如此,数据再利用的重要性还没有被充分认识到。要解锁这些数据,就必须通过新一代统计人员的不懈努力并借助新一代的方法和工具。
随着大数据的出现,数据的总和比部分更有价值。将数据的总体组合在一起,重组组合本身的价值也比单个更大。如果决定使用有生产价值的数据,就需要不断的更新数据库并淘汰无用的信息。即使数据基于基本用途的价值会减少,但潜在价值却仍然强大。潜在的数据价值需要通过创新的分析来释放。不出意外,给数据的潜在价值贴上价格标签会带来无限商机。
6 小结
个人认为统计学和数据挖掘一起可以更好的利用数据。一个可以对数据进行有效合理的分析,一个可以用多种多样的算法来更好地处理数据。在大数据时代,重要的是数据自身和大数据的思维观念。如果能做到数据,技能和思维三者具备,就能更好地服务于大数据时代,就能在大数据时代有非常大的竞争优势。
参考文献:
[1]维克多迈尔-舍恩伯格 肯尼斯 .库克耶.大数据时代.浙江人民出版社
[2]贾俊平.统计学第五版.中国人民大学出版社