统计学与大数据

来源 :数学学习与研究 | 被引量 : 0次 | 上传用户:wblovell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】首先,本文给出了笔者认为的统计学研究的典型问题究竟是什么;然后,阐述了什么是大数据;最后,就笔者的理解浅谈了大数据时代统计学究竟还有没有用武之地.
  【关键词】统计学;大数据;统计分析
  一、统计学研究的典型问题
  众所周知,统计学是处理数据的一门科学.人们给统计学下的定义很多,比如,《不列颠百科全书》中“统计学是收集、分析、表述和解释数据的科学”;《韦伯斯特国际词典(第3版)》中“统计是一门收集、分析、解释和提供数据的科学”;Mario F.Triola的《初级统计学》中“统计指的是一组方法,用来设计实验、获得数据,然后在这些数据的基础上组织、概括、演示、分析、解释和得出结论”.笔者认为,统计学研究的典型问题是“运用已知数据获得所研究的客观事物的数量特征和发展规律,利用规律对所研究的客观事物的行为进行预测”.
  首先,统计学研究的典型问题的关键之一就是必须有所研究问题的数据,这是研究的前提.那么如何获得已知数据呢?我们说可以通过调查,也可以通过实验.先来说通过调查获得已知数据,情况有两种,一种是抽样调查,另一种是普查.给大家举一个例子,比如,某研究部门想知道其所在城市所有职工家庭的年平均收入.那么,“该城市所有职工家庭的年平均收入”就构成了所研究问题的总体.“该城市中的每一个职工家庭的年平均收入”就是总体中的个体.如果要通过抽样调查来获得数据,也就是抽取部分个体组成样本,比如,该部门抽取了2 000个职工家庭的年平均收入作为样本,那么就获得了2 000个样本数据(某年的年收入数据),这就是通过抽样调查获得的已知数据.再用这同一个例子来说一说普查.比如,2016年,该研究机构对其所在城市中的每一个职工家庭都进行了调查,获得了每个个体(职工家庭)的2015年的年收入数据,这就是通过普查获得的已知数据.
  当然也可以通过实验来获得已知数据,做实验的过程就复杂了.要想通过实验获得靠谱的数据,首先,得满足样本量足够大,然后,就是要做到随机.现实中这两点也不是很容易做到的.例如,假设我们现在想研发一种做运动鞋的新材料,看看是不是比旧的材料更耐磨.又假设我们现在的研发成本非常高,只能提供4双样品鞋.于是,我们找来了8个孩子来试穿,4双新材料4双旧材料.看到这儿,第一反应是样本量小了,但是没有办法啊,实际情况只允许我们做到这种程度.那么在样本量无法扩大的前提下,怎么做才能使实验靠谱呢?我们给每一个孩子随机选一只脚穿新材料,另一只脚穿旧材料.这样,每一组新旧材料的对比都是基于同一个孩子的,这就不存在比如,孩子是否喜欢运动等的混淆因素了.
  统计学研究的典型问题的第二个关键点就是需要有合理的统计分析.针对已经获得的已知数据也就是样本数据,我们采用合理的统计分析,定会对所研究的客观事物的数量特征和规律进行准确的描述、分析和判断.
  统计学研究的典型问题的第三个关键点就是对未来的预测具有不确定性.分两个方面来给大家阐述.首先,未来必须是未知的,如果所研究的某事物的未来行为或特征是已经知道的,那这就不属于统计学要研究的问题.其次,预测必须是不确定的.如果预测的结果只有一种,也就是预测的结果是确定的,那这也不属于统计学要研究的问题.比如,我们想知道人体的骨骼有多少块骨头?于是,抽选部分人作为样本,通过对样本研究获得已知数据,进而来预测其余未被抽中的人,这种预测具有确定性,人体骨骼是由206块骨头组成.这就不属于统计学要研究的问题.再比如,一种新药出厂后用于临床试验获得已知数据,然后对更广泛的同类型病人的疗效做预测性推断,具有不确定性.
  二、什么是大数据
  当今,“大数据”如日中天,似乎已经成为人们的流行语,那什么是大数据呢?麦肯锡对大数据的定义是从数据集的“大体量”入手的:大数据是指那些规模大到传统的数据库软件工具已经无法采集、存储、管理和分析的数据集.维基百科采纳了麦肯锡的定义,认为大数据是一组庞大而复杂的数据集的集合,大且复杂到难以用现有的数据库管理工具或传统的数据处理应用来处理,大数据就是一切可记录信号的集合.狭义地讲,大数据是一个大样本和高维变量的数据集合.广义地讲,大数据涵盖多学科领域、多源、混合的数据,自然科学、人文社会、经济学、通讯、网络、商业和娱乐等各种领域的数据集相互重叠连成了一片数据的海洋.大数据涉及各种数据类型,包括文本与语言、录像与图像、时空、网络与图形.我认为,当今流行的“大数据”是通过互联网获得的足够大量的、包含一切数据类型的数据的集合.
  三、大数据时代,统计学是不可或缺的
  我们姑且先不去谈大数据和统计学中的数据谁更全面,谁更方便获得,谁更相对有代表性;不去谈什么样本和总体,我们就只是来说一说,大数据时代,只是有全部的数据就足够了吗?笔者认为当然不是.无论是大数据还是统计学中的样本数据最初都是杂乱的、无序的,所以说,大数据时代,数据的处理、理论分析等的问题就显得尤为重要了.这些重要问题的解决都离不开统计学,它需要统计理论和统计分析方法.
  就是舍恩伯格和库克耶也不同意安德森的极端观点.他们指出“大数据绝不会叫嚣‘理论已死’”,因为“大数据是在理论的基础上形成的”,无论是如何搜集数据、分析数据、还是解读研究结果,都得依赖理论.“大数据时代绝对不是一个理论消亡的时代,相反地,理论贯穿于大数据分析的方方面面.”
  綜上,即便是在大数据时代,统计学也是不可或缺的.
其他文献
目前,中职学生的学习数学的现状是基础普遍较差,基本技能欠缺,学生对数学课存在一定恐惧心理,而且现有的中职数学教材和教法与学生的实际情况相脱离.因此,笔者想通过中职数学
本文对肝炎肝硬变医院感染情况进行了回顾性调查和分析,旨在加强肝硬变医院感染的防治,减少治疗费用,延长肝硬变患者的生命.
<正> 1 2002年世界艾滋病特点 2002年全球艾滋病的新感染者为500万,死亡者为310万。目前,全球感染后总存活者约4 200
为了解和掌握部队传染病发病的动态变化规律及其影响因素,有针对性地制定科学的防治措施,我们对某部队1992-2003年报告的传染病资料进行了发病分析,结果如下.
肾综合征出血热(HFRS)发病率较高,近年一直呈上升趋势.随着对该病的不断研究,临床医师对典型的HFRS能正确诊断并给予及时合理的治疗.但是由于HFRS的基本病理特点为全身小血管
本文对韩国京畿道东豆川市韩国外食科学高中开发的一套JEC-TALK汉语教学模式从前期学习、自觉学习、过程检测、后期竞赛四个主要过程进行了系统的描写,并进行了评述性分析,为
进入新世纪以来,随着国内经济结构不断优化升级,社会经济发展对人才的要求逐渐提高,产学研合作教育模式在高校艺术设计专业中得到重视.基于此,本文从高校艺术设计专业产学研
自发性细菌性腹膜炎(SBP)指在已有腹水存在的基础上,腹腔内无明确感染灶或脏器破裂,也无直接污染途径而发生的腹膜细菌感染.常发生于失代偿性肝硬化或慢性重型肝炎(简称慢重
高校档案是高校建设与发展的宝贵财富,也是学校教育资源的重要组成部分.新时期,高校档案部门应做好档案信息资源的开发和利用工作,最大限度地实现档案信息资源的社会共享,使
犬细小病毒感染又称犬传染性胃肠炎,是由犬细小病毒感染引起的一种急性传染病。该病毒是20面体对称,无囊膜的单股DNA病毒。对福尔马林、内酯和紫外线敏感。对新生组织细胞有