大数据下的统计思维变化

来源 :科学导报·学术 | 被引量 : 0次 | 上传用户：sunshu

【摘要】

：

【作者】

：

丁洁

【出处】

：

科学导报·学术

【发表日期】

：

2020年33期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　互联网科技的发展使得数据量的急剧增加，在数据科技的大力发展下，人们所能储存、处理的数据已经达到前所未有有的量级，并且以超过摩尔定律的速度迅猛增加。数据的作用也在人们的生产生活中产生极大的影响，改变了生产生活的方式，成为了一种新的生产资料，根据马克思主义哲学的时代观，我们可以知道一个新的时代——大数据时代正冲着我们呼啸而来，它正在悄悄地改变着人们的行为与思维。
　　一、大数据的概念
　　与传统意义上的数据相比，大数据的“大”与“数据”都有了新的含义，绝不仅仅是体量的问题，更重要的是数据的内涵问题。大数据不是基于人工设计、借助传统方法而获得的有限、固定、不连续、不可扩充的结构型数据，而是基于现代信息技本与工具可以自动记录、储存和连续扩充的、大大超出传统统计记录与储存能力的一切类型的数据。通俗地说，大数据就是一切可记录信号的集合。
　　如果说，传统统计研究的数据是有意收集的结构化的样本数据，那么现在我们面对的数据则是一切可以记录和存储、源源不断扩充、超大容量的各种类型的数据。样本数据是按照特定研究目的、依据抽样方案获得的格式化的数据，不仅数据量有限，而且如果过程偏离方案，数据就不能满足要求。基干样本数据所进行的分析，其空间十分有限——通常无法满足多层次、多角度的需要，若遇到抽样方案事先未曾考虑到的问题，数据的不可扩充性缺点就暴露无疑。而大数据是一切可以通过现代信息技术记录和量化的数据，不仅所蕴含的信息量巨大，而且不受各种框框的限制——任何种类的数据都来者不拒、也无法抵拒。不难发现，大数据相比于样本数据的最大优点是，具有巨大的数据选择空间，可以进行多维、多角度的数据分析。
　　二、统计思维的变化
　　统计学是关于数据的科学，即研究如何收集、整理和分析数据的科学。数据是依据，是根本，是一个分析结果的灵魂，是统计方法生命力的根源所在，大数据时代的统计首先要适应两个重大的思维转变。
　　（一）认识数据的思维要变化。
　　首先，从来源上看，传统的数据收集因为具有很强的针对性，因此数据的提供者大多是确定的，身份特征是可识别的，有的还可以进行事后核对。但大数据通常来源于物联网，不是为了特定的数据收集目的而产生，而是人们一切可记录的信号凸然，并且身份识别十分困难。从某种意义上讲，大数据来源的微观基础是很难追溯的。
　　其次，从类型上看，传统数据基本上是结构型数据，即定量数据加上少量专门设计的定性数据，格式化、有标准，可以用常规的统计指标或统计图表加以表现。但大数据很多的是非结构型数据、半结构型数据或异构数据，包括了一切可记录、可存储的信号，多样化、无标准、难以用传统的统计指标或统计图表加以表现。同时，不同的网络信息系统有不同的数据识别方式，相互之间也没用统一的数据分类标准。再者，现在有的数据库是非关系型的数据库，不需要预先设定记录结构即可自动包容大量各种各样的数据。
　　（二）收集数据的思维要变化。
　　由于大数据来源与种类的多样性，以及数据增加的快速性，我们在享受数据的丰富性的同时也不得不面临这样一些困境;这样一来，电子存储能力能否跟得上数据增加的速度就成为首要的问题。如果让数据库自动更新就有可能失去一些宝贵的数据信息，而到了一定级别以后扩充存储容量或对数据进行拷贝，其代价是十分巨大的，因此我们了得了对数据进行分类、筛选，有针对地删除那些垃圾数据、不重要或次重要的数据。
　　并不是任何数据都可以从现成的大数据中获得，这里存在一个针对性、安全性和成本比较问题。因此，我们既要继续采用传统的方式方法去收集特定需要的数据，又要善于利用现代网络信息技术和各种数据源去收集一切相关的数据，并善于从大数据中进行再过滤、再选择。
　　三、应对大数据的措施
　　（一）需要改变总体、个体乃至样本的定义方式。
　　传统的统计分析，是先有总体，再有数据，即必须先确定总体范围和个体单位，再收集个体数据，分析总体。但对大数据来说，情况完全不同了，是先有数据，再有总体。从某种意义上说，大数据的产生系统多数是非总体式的，即无事先定义的目标总体，只有与各个时点相对应的事后总体，原因就在于个体是不确定的，是变化着的，是无法事先编制名录库的，这与传统的总体与个体有很大的不同。
　　（二）需要改变对不确定性的认识。
　　众所周知，统计学是为了认识和研究事物的不确定性而产生的，因为无论是自然现象还是社会经济现象，都时时处处充满着因个体的差异性而引起的不确定性，因为在大多数情况下我们缺乏足够的信息或缺乏足够的知识去利用有效信息，而人们总是期望通过量化事物的不确定性去发现规律、揭示真相，认识不确定性背后的必然性。要研究不确定性就需要收集数据，在只能进行抽样观测的情况下，这种不确定性就表现为如何获得样本、如何推断总体和如何构建模型等方面。
　　（三）需要建立新的数据梳理与分类方法。
　　大数据的多样性与混杂性，以及先有数据、后有总体的特点，原有的数据梳理与分类方法将受到诸多的限制。传统的数据梳理与分类是按照预先设定的方案进行的，标志与指标的关系、分类标识与分组规则等都是结构化的，既是对有针对性地收集的数据的加工，也是统计分析的组成部分。但对于大数据，由于新的网络语言、新的信息内容、新的数据表现形式下断出现，使得会产生哪些种类的信息、有哪些可以利用的分类標识、不同标识之间是什么关系、类与类之间的识别度有多大、信息与个体之间的对应关系如何等，都无发事先加以严格设定或控制，住往需要事后进行补充或完善。
　　（四）需要统计技术与云计算技术融合。
　　尽管用于收集和分析数据的统计技术已相对成熟、自成体系，但其所能处理的数据量是有限的，面对不可同日而语的大数据、特别是其中大量的非结构化数据恐怕是难以胜任的。首失遇到的问题就是计算能力问题，这就要求我们在不断创新与发展统计技术的同时，还要紧紧依靠现代信息技术、特别是云计算技术。借助云计算技求可以将网络计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等传统计算机技术与现代网络技术融合起来，把多个计算实体整合成一个具有强大计算能力的系统。

其他文献

浅析城乡居民社会养老保险档案规范化管理

摘要：城乡居民社会养老保险业务档案管理是一项基础性的工作，在城乡居民社会养老保险制度的运行过程中扮演着至关重要的角色，也是民生档案中一个不可代替的重要组成部分。本文主要以马关县城乡居民社会养老保险档案管理为例，就当前在城乡居民社会养老保险档案管理中存在的问题进行分析，并提出相应的解决策略。　　关键词：城乡居民养老保险业务档案;规范化管理;对策;　　2017年，在党的十九大报告中，着重强调了民生工

期刊

继承权公证工作相关问题浅析

摘要：随着我国法制社会的逐渐确立，人们开始关注切实利益，但由于法律执行具有复杂化的特点，为核查审定增加了难度。继承权公证是基本的公证工作，为保证法律落实的效果，相关工作人员需具备一定的能力，保障继承权公证问题得以妥善处理。本文就继承权公证可能存在的问题予以阐释，并给出相应的措施，以期推进我国法制化进程。　　关键词：继承权公证;问题;措施　　引言：　　近几年，随着土地的不断开发，继承权公证问题随之

期刊

压力性尿失禁的治疗研究进展

摘要：压力性尿失禁是一种严重影响女性的生活质量的疾病，被称为社交癌。随着年龄增长，患病率逐渐增高，本文就近年来压力性尿失禁的治疗方式进行综述。　　关键词：压力性尿失禁;治疗方式　　1 SUI概况　　压力性尿失禁（Stress Urinary Incontinence，SUI）指正常状态下无遗尿，当腹压突然增高时（如打喷嚏、咳嗽、搬重物、跳跃等）出现无法控制的尿液的不自主自尿道外口渗漏。近年来，压

期刊

弘扬优秀传统文化用心浇灌铸就成长

摘要：伴随着我国经济和文化的快速发展，人们在达到温饱奔向小康的同时也越来越注重文化，尤其是优秀的传统文化的培养。当人们不再为吃穿而发愁，便开始追求精神上的满足。中国传统文化博大精深源远流长，从数千年前开始到现在从未间断，是世界上最悠久传承时间最长的文化。近些年来，优秀的传统文化被不断的重视和发掘，在构建法治社会的同时也注重了文化的建设。小学道德法制课堂也应当注重对学生传统文化的教育，本文将对道德

期刊

新型百褶帘结构的研究

摘要：新型百褶帘结构，包括上轨、活动轨、铆扣、弹簧、帘布、上轨侧封盖、活动轨侧封盖、升降拉绳、固定扣，其中簾布上下端用铆扣分别固定在上轨和活动轨上，在上轨内部中间放置有一根弹簧，弹簧两端分别连接有升降拉绳，升降拉绳另一端分别从上轨中间两侧的贯孔A 穿出，然后自上而下逐个穿过帘布上的穿绳孔，最后分别从活动轨中间两侧的贯孔B 穿入活动轨内部，并交叉从活动轨两端的活动轨侧封盖上的贯孔C穿出，升降拉绳末

期刊

脑卒中吞咽障碍的研究进展

摘要：文章从现代医学和传统医学的角度，对脑卒中吞咽障碍的病因、机制、临床表现和治疗方法进行了梳理和总结，为脑卒中后吞咽功能障碍的治疗提供文献参考依据。　　关键词：脑卒中;吞咽障碍;研究进展　　脑卒中是器质性脑损伤引起的脑血管疾病，发病率、死亡率、致残率、复发率高，并发症多且严重。吞咽功能障碍是常见并发症之一，发病率高达 22-65%，严重影响患者的生活质量，是亟待解决的重要问题。目前对脑卒中后吞

期刊

重金属脱除方法机理浅析

摘要：近年来，随着工业污染加剧，重金属带来的污染问题越发严重，各行业都面临利用各种技术方法脱除其中的重金属的问题。文章对重金属脱除方法进行了归纳，并对脱除机理进行了简要分析，包括物理法、化学法、离子交换法、微生物法、活体脱除法、排斥法等。　　关键词：重金属;脱除方法;机理　　近年来，随着工业污染加剧，重金属带来的污染问题越发严重，各行业都面临利用各种技术方法脱除其中的重金属的问题。目前国内外脱除

期刊

高星级酒店餐饮原材料成本控制优化

摘要：本文基于笔者的实际工作经验，首先对某高星级酒店的原材料成本控制问题进行了分析，然后针对不同环节给出了相应的解决方案。　　關键词：酒店餐饮;成本控制;优化方案　　当前我国酒店服务业发展迅猛，表现出了一片欣欣向荣的景象。但在我国扩大内需的政策背后，部分酒店自身的经营状况却频频出现问题，主要是由于国内市场仍旧以价格竞争为主，使得企业对于成本控制能力和外部的竞争能力均出现不足的情况。本文从高星级酒

期刊

智慧车站视频监控应用研究

摘要：车站的规划与建设对城市交通发展具有较大的影响，为了在车站运维、车站管理方面取得更好成绩，可进一步加强视频监控的应用，由此能够在车站的细节干预上取得更好的效果。智慧车站的建设是长期发展路线，而视频监控系统的建设，特别是视频智能分析应用将是未来的建设重点。　　关键词：智慧车站;视频;监控;应用　　近几年的城市交通建设、枢纽建设都在不断的强化，确保车站的运转过程中，能够严格按照相关规范、标准来完

期刊

关于就业专项资金管理与使用问题的思考

摘要：就业专项资金作为社会管理、社会保障、公共事业发展、经济建设支出的重要来源，在各级政府财政建设中占有重要地位。提高就业专项资金管理质量和水平对提高政府公共服务质量，改善居民生活，提高群众公信力度都有着无比重要的意义。本文拟就业专项资金管理与使用问题提出一点建议，供参考。　　关键词：就业专项资金;管理;使用　　就业专项资金，是指中央和地方各级财政根据就业形势变化和就业创业工作任务，通过调整支出

期刊

大数据下的统计思维变化

与本文相关的学术论文