大数据与统计学分析方法比较

来源 :科学与财富 | 被引量 : 0次 | 上传用户:cxzclong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  在这个大数据占主导的时代,数据逐渐进入了人们的视野并且逐步发挥着越来越重要的作用。如何合理利用大数据解决实际问题,并做出科学有效的决策成为了当今社会各行各业广泛关注的问题。科学技术的发展与普及使得信息数据在社会发展过程中的各个方面都大展拳脚。而在数据处理和分析方法方面,统计学的相关知识一直是理论的主力和中心,这些方法协助人们从杂乱无章的数据中挖掘有价值的信息,并为其相关决策提供理论支撑和方法支持。但是,随着处理数据的数量逐渐庞大,传统的理论方法在面对大量数据时遇到了瓶颈,向我们暴露了了较多的不足。传统统计方法和分析软件无法处理大规模的数据。如果人们要紧随大数据的潮流,利用相关的科技更好的收集和处理信息,首先要对原有的统计学方法进行改进,使其与大数据所需要的处理方法更加的贴合。
  首先需要明确的是大数据的定义,根据维基百科上对于大数据的定义:大数据指的是那些因为数据过于复杂和庞大从而传统软件分析方法不足以应对的数据群,主要技术模块包括数据的获取,数据的储存和数据的分析,搜寻,转移,可视化,排列等。总的来说,大数据的特征可以概括为是数据量大,数据流动性大: 例如现在热门的各种软件如snapchat,微博和知乎。再者就是数据种类多,有丰富的多样性,包括结构化数据,也有其他类型的非结构数据。最后是数据价值大,这些大规模数据可以为企业或组织创造出巨大的商业或社会价值。大数据的方法最主要的包括:Analytic Visualizations(可视化分析):数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。Data Mining Algorithms(数据挖掘算法):可视化是给人看的,而数据挖掘是给机器展示。集群、分割等算法让我们深入数据内部,挖掘价值。Predictive Analytic Capabilities(预测性分析能力):数据挖掘可以让分析员更好的理解数据,而预测性分析则可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。Semantic Engines(語义引擎):由于非结构化数据的多样性带来了数据分析的新的挑战,需要一系列的工具去解析,提取,分析数据。Data Quality and Master Data Management(数据质量和数据管理):数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。Victor在其最新著作《大数据时代――生活、工作与思维的大变革》中指出,大数据时代,人们的思维方式要发生3个变革:第一,要分析与事物相关的所有数据,而不是依靠分析少量数据样本;要总体,不要样本。第二,要乐于接受数据的纷繁复杂,而不再追求精确性。第三,不再探求难以捉摸的因果关系,应该更加注重相关关系。上述与计算机结合的新进方法和变革反映出了大数据处理方式与传统统计学分析方法的很多关联以及主要不同。
  接下来讨论大数据与统计学分析方法的联系,其二者均采用量化分析。大数据分析的基础是数据化,也就是一种把各种各样现象转变为可制表分析的量化形式的过程。不论是传统统计学中所应用的数据还是大数据时代即将被转化和采用其他多种形式的数据最终都是通过量化分析方法来对数据进行有效的分析并且揭示数据中所蕴含的事物特征。
  现在将讨论的重点还是放在统计学分析与现今大数据的分析过程中的差异。统计学的定义是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的基础数学知识及其它学科的专业知识,使用范围非常的广泛。虽然统计学也在跟着不断的发展更新,理论知识的更新速度很难一下子跟上社会抛出的一系列新问题。而现在大数据价值就像是一座宝藏,绝大部分都隐藏在表面下等待挖掘。相关领域的专家表明大数据的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识。大数据倾向于尽可能利用所有能获取的数据。
  在传统的数理统计学中,由于记录,存储,分析数据的工具并没有那么的先进,倾向于从总体中抽取样本来分析,用样本简单有效的估计整体,最主要的就是利用样本参数估计对应的总体参数。采样分析的准确性的确会随着采样随机性的增大而提高,但是与样本数量的增大关系并不是很大。当样本数量达到了某个值的时候,从新个体身上得到的信息会越来越少。在大数据时代,随机分析的方法将不再被采用,人们会选择去利用所有的数据。即“样本=总体”。统计抽样产生的契机是为了解决存在的一些特定问题而产生的。在技术逐渐成熟之后,样本分析就会被逐渐抛弃。?
  大数据的其中一个很重要的特质就是让人们学会接受不精确,对小容量的数据来说,统计学或许已经可以把数据处理的较为合理。但是在大数据时代,原始统计方法并不能有效的解决问题,因为数据量的大幅增加会导致量化分析的结果包含误差。执迷于绝对的精确性是信息缺乏时代和模拟时代的产物,只有接受不精确性才能带领我们进入新的领域。
  另外,大数据时代数据的来源没有原先那么简单。一般情况下,统计学中要想得到一些数据是需要通过各种不同实验方法测量和记录,数据的收集是较为耗时,同时也需要大量的精力。但是随着科技的发展,数据有时候可以从你意想不到的地方得到。也许在精心地设计实验或是研究测试之后,真正操作才会发现事情并不像想象的简单。大数据时代所提出的“数据化”方式,将使得对所需数据的收集变得更加容易和高效。除了传统的数字化数据,就连图像、方位、文本的字、段落等等,世间万物都可以成为大数据分析的原料。
  至于数据的利用方式,在统计学中,对数据的利用主要包括对数据进行分析,求统计的各种数值中的联系,如身高的遗传问题,不仅要分析其父母的身高,还要分析孩子的身高,先估计合适的模型,再实际代入检验模型判断是否合适,进行合理分析从而得出自己的结论。在大数据时代,数据没有这样较为定性的检验和分析手段,对数据的利用方法也随着情况的不同而不同,要学会具体情况具体分析。另外,大数据的发展使得机器学习,云计算等原来计算机领域的方法逐渐进入人们的视野,与原来的统计分析方法和途径有效结合和互补从而实现数据的收集,存储和分析。
  总的来说,只有更好的了解统计知识并结合大数据的特点进行分析,这样才能研究出最好的分析方法,提高分析效率。
  参考文献
  [1]孟小峰,慈祥.大数据管理:概念,技术与挑战[J].计算机研究与发展,2013,50(1):146169.
  [2]俞立平.大数据与大数据经济学[J].中国软科学,2013,(7):177183.
  [3]维克托·迈尔·舍恩伯格,肯尼斯·库克耶.大数据时代―生活、工作与思维的大变革[M].盛杨燕,周涛译.杭州:浙江人民出版社,2012.
其他文献
摘 要: 根据《广东省水污染防治行动计划实施方案》要求,镇安污水厂出水执行标准需从原二级标准提升至《城镇污水处理厂污染物排放标准》(GB18918-2002)一级A标准,由于现状生物池已无法满足处理要求,拟采用MBBR工艺对镇安污水厂一期工程进行提标改造,在提标改造前在厂区进行MBBR工艺中试试验,根据中试成果,评估该工艺可行性。  关键词: 镇安污水厂;提标改造;MBBR工艺;技术试验  镇安污
摘 要: 旨在准确评估科技报告公开的风险可能性,为报告是否适宜公开提供决策思路和风险规划预警。通过将层次分析法和模糊综合评价法结合,构建相关风险量化模型,将其应用于科技信息管理中科技报告公开研究的构想。  关键词: 科技报告;风险评估;层次分析法;模糊综合评价法  一、引言  我国的科研活动自建国初就已发生,至今已产生了成千上万份的科技报告。科技报告不同于一般报告,具有技术含量高、实用性强、包含大