论文部分内容阅读
大数据时代背景下,人的数据意识与数据分析能力尤为重要。收集、分析数据的重要目的是研究与解决问题。什么是数据、数据有哪些类型及特点、传统数据与大数据有何区别、如何理解“数据中蕴含着信息”等,是一线教师持续关注的问题。
数据的不同类别与价值
数据在科学研究中占据中心地位。大数据时代,数据收集的方式方法发生了翻天覆地的变化,但收集哪些数据的思路并没有改变,仍取决于研究者对研究问题及统计指标的设计。学界对“数据是什么”一直没有明确、统一的解释。李金昌教授认为,可以从两个角度理解数据,狭义的数据就是以数字表现的可进行数学运算的数值,即所谓的结构化数据;广义的数据指一切可以用一定形式记录和反映的客观事实,是信息的表现方式或载体,除了数值、图表,还可以是符号、文字、图像、声音、视频等所谓的非结构化数据,以及其他任何有可能被纳入统计学研究对象的可存在形式。
随着时代发展,数据可以分为传统数据与大数据。传统数据就是通过调研、实验所获得的结构化数据(即观测数据和实验數据),数理统计学家陈希孺院士将其细分为3个类别:抽样数据、重复测量同一对象数据、试验设计所得数据。目前,小学阶段所研究的数据都是传统数据,以调研观测数据为主。大数据的“大”不是指数据量之大,更强调“全体”的意思。大数据指不限量的数据,是基于现代信息技术的一切可以记录的全体数据,其特征之一是尽量多地包含数据,它与样本容量无关,只与信息来源的数量和储存容量有关。例如,交通监控系统获得的数据(自动产生的数据)、网络上购买东西的数据(驱动产生的数据)等都是大数据。
从另一个角度看,数据还有统计数据与非统计数据之分。统计数据指能通过统计方法获得并加以处理和分析、用统计语言来表现分析结果的数据。其中,只有契合问题本质和数据形态特征的分析方法才是科学的统计方法,统计语言就是统计指标(变量)和各种图表(包括可视化)。当然,统计数据的界定也不是绝对的,随着研究问题的不断变化,相应的统计方法也会发生变化,随着处理和分析数据能力的增强,统计数据的范围将不断扩大。
“数据蕴含着信息”是数据存在的最大价值,即数据不仅为了记录,更要从中挖掘出有价值的信息,通过对其筛选与分析得出所需要的结论,或者将其转化为有用的信息解决实际问题。需要注意的是,虚假错误的数据也可以分析出有意义的结果,因此要特别关注数据的来源和真实性。
关于数据分析观念,课程标准中首要强调“用真实数据说话”的意识与做人做事的态度;其次,通过分析数据发现事物的规律,进而解决实际问题;最后,要学生感悟即使数据是真实的,但统计数据仍具有随机性。
统计数据的本质特征——随机性
随机性指事件发生的结果不能由人主观臆想、主观控制。统计数据具有随机性,但小学阶段所涉及的数据分两种情况:一种是不考虑随机性的数据,只针对调查出的数据本身进行描述分析。例如,调研全班学生最爱吃哪种水果、全班学生身高的数据。另一种情况是具有随机性的数据。具有随机性的数据包括两种情况:一是完全随机性,即概率试验所得到的数据,例如抛硬币、掷骰子试验所得到的数据;二是来自现实的数据,既具有一定的随机性,但又不完全随机,属于半随机状态。
完全随机和完全不随机的数,属于数学研究或数学阐释的范畴,半随机性的数据则由于历史原因归于统计研究的领域。例如,一天中某股票的价格(排除人为操控因素)、某地每天发生的交通事故数、每天上学迟到的学生人数、10次测量一支铅笔的长度(规定精确度)等都是半随机性数据。数据要尽可能排除人为干扰和系统误差,这样通过统计推断所得到的结果才能“更好”,但所得出的结论没有“对错”之分。这与数学结论具有唯一性、确定性等特征不同,这一点也是统计思维与数学思维的本质区别。在小学阶段培养学生的统计思维非常有难度。
此外,大数据具有4V(Volume大量、Velocity高速、Variety多样、Value价值)特征。史宁中教授认为,大数据还具有“价值稀疏性”,数据量那么大,每天能够产生25亿GB,真正有分析价值的不到0.5%,但一旦有价值就是“价值最大的价值”。
如何获得数据所蕴含的信息
数据蕴含着信息,关键要用一定的(或者不同的)方法发现并获得这些信息,用哪些统计方法取决于分析者的判断准则及价值观,但要遵从数据类型,不同类型的数据适合的分析方法也不同。因而,统计既是科学,也是艺术。
如前所述,对不具有随机性数据的分析称为描述性分析(描述统计),例如可以对数据排序、“分段”整理,或者求最大值、最小值、平均数等获得信息。这些信息是数据“自身携带”的,只需要描述出来,不需要进行推断、估计等思维活动。这类数据最重要的加工方式是对数据“合理分类”。例如,对调研获得的全班学生身高数据进行“合理分段”非常重要,分段前要制定标准,每段“多长(区间长度)”、所分“段数”是多少等都要合理。学会基于“标准”做判断是重要的数学思维。
教学统计图表时,不应是教师“画好”了,再让学生填写某个“图表”,这样做没有思维价值,不是素养导向的教学。教师应引导学生思考“为什么”,经历“图表”的建构过程。如,怎样设计表头、如何确定统计图中横轴的分类与纵轴的单位等。确定标准的过程就是学会度量的过程。因此,分类与度量是尤为重要的两种数学思想和科学研究方法,制订标准与按标准做事是非常重要的两件事,既涉及能力问题,也涉及情感态度甚至是价值观的问题。
具有随机性数据的统计分析称为推断分析(推断统计),例如通过求相关系数、回归方程结构模型等,再辅以描述统计的方法,人们就可以获得数据蕴含的更多“隐藏”信息。推断统计的核心是通过已经验了的事物推断未曾经验的事物,或者说通过样本推断总体。因此,抽样问题至关重要。
李金昌教授认为:统计分析的过程是一个循序渐进的过程,它既容忍误差的存在,又不断在认识过程中控制和降低误差,同时,对分析结论进行评估。在大数据时代背景下,和调研实验数据不一样,大数据的分析更为复杂,虽然小学阶段不要求学生学习大数据,但可以结合学生生活实际让他们知道大数据的存在、了解大数据的价值。
助理编辑
数据的不同类别与价值
数据在科学研究中占据中心地位。大数据时代,数据收集的方式方法发生了翻天覆地的变化,但收集哪些数据的思路并没有改变,仍取决于研究者对研究问题及统计指标的设计。学界对“数据是什么”一直没有明确、统一的解释。李金昌教授认为,可以从两个角度理解数据,狭义的数据就是以数字表现的可进行数学运算的数值,即所谓的结构化数据;广义的数据指一切可以用一定形式记录和反映的客观事实,是信息的表现方式或载体,除了数值、图表,还可以是符号、文字、图像、声音、视频等所谓的非结构化数据,以及其他任何有可能被纳入统计学研究对象的可存在形式。
随着时代发展,数据可以分为传统数据与大数据。传统数据就是通过调研、实验所获得的结构化数据(即观测数据和实验數据),数理统计学家陈希孺院士将其细分为3个类别:抽样数据、重复测量同一对象数据、试验设计所得数据。目前,小学阶段所研究的数据都是传统数据,以调研观测数据为主。大数据的“大”不是指数据量之大,更强调“全体”的意思。大数据指不限量的数据,是基于现代信息技术的一切可以记录的全体数据,其特征之一是尽量多地包含数据,它与样本容量无关,只与信息来源的数量和储存容量有关。例如,交通监控系统获得的数据(自动产生的数据)、网络上购买东西的数据(驱动产生的数据)等都是大数据。
从另一个角度看,数据还有统计数据与非统计数据之分。统计数据指能通过统计方法获得并加以处理和分析、用统计语言来表现分析结果的数据。其中,只有契合问题本质和数据形态特征的分析方法才是科学的统计方法,统计语言就是统计指标(变量)和各种图表(包括可视化)。当然,统计数据的界定也不是绝对的,随着研究问题的不断变化,相应的统计方法也会发生变化,随着处理和分析数据能力的增强,统计数据的范围将不断扩大。
“数据蕴含着信息”是数据存在的最大价值,即数据不仅为了记录,更要从中挖掘出有价值的信息,通过对其筛选与分析得出所需要的结论,或者将其转化为有用的信息解决实际问题。需要注意的是,虚假错误的数据也可以分析出有意义的结果,因此要特别关注数据的来源和真实性。
关于数据分析观念,课程标准中首要强调“用真实数据说话”的意识与做人做事的态度;其次,通过分析数据发现事物的规律,进而解决实际问题;最后,要学生感悟即使数据是真实的,但统计数据仍具有随机性。
统计数据的本质特征——随机性
随机性指事件发生的结果不能由人主观臆想、主观控制。统计数据具有随机性,但小学阶段所涉及的数据分两种情况:一种是不考虑随机性的数据,只针对调查出的数据本身进行描述分析。例如,调研全班学生最爱吃哪种水果、全班学生身高的数据。另一种情况是具有随机性的数据。具有随机性的数据包括两种情况:一是完全随机性,即概率试验所得到的数据,例如抛硬币、掷骰子试验所得到的数据;二是来自现实的数据,既具有一定的随机性,但又不完全随机,属于半随机状态。
完全随机和完全不随机的数,属于数学研究或数学阐释的范畴,半随机性的数据则由于历史原因归于统计研究的领域。例如,一天中某股票的价格(排除人为操控因素)、某地每天发生的交通事故数、每天上学迟到的学生人数、10次测量一支铅笔的长度(规定精确度)等都是半随机性数据。数据要尽可能排除人为干扰和系统误差,这样通过统计推断所得到的结果才能“更好”,但所得出的结论没有“对错”之分。这与数学结论具有唯一性、确定性等特征不同,这一点也是统计思维与数学思维的本质区别。在小学阶段培养学生的统计思维非常有难度。
此外,大数据具有4V(Volume大量、Velocity高速、Variety多样、Value价值)特征。史宁中教授认为,大数据还具有“价值稀疏性”,数据量那么大,每天能够产生25亿GB,真正有分析价值的不到0.5%,但一旦有价值就是“价值最大的价值”。
如何获得数据所蕴含的信息
数据蕴含着信息,关键要用一定的(或者不同的)方法发现并获得这些信息,用哪些统计方法取决于分析者的判断准则及价值观,但要遵从数据类型,不同类型的数据适合的分析方法也不同。因而,统计既是科学,也是艺术。
如前所述,对不具有随机性数据的分析称为描述性分析(描述统计),例如可以对数据排序、“分段”整理,或者求最大值、最小值、平均数等获得信息。这些信息是数据“自身携带”的,只需要描述出来,不需要进行推断、估计等思维活动。这类数据最重要的加工方式是对数据“合理分类”。例如,对调研获得的全班学生身高数据进行“合理分段”非常重要,分段前要制定标准,每段“多长(区间长度)”、所分“段数”是多少等都要合理。学会基于“标准”做判断是重要的数学思维。
教学统计图表时,不应是教师“画好”了,再让学生填写某个“图表”,这样做没有思维价值,不是素养导向的教学。教师应引导学生思考“为什么”,经历“图表”的建构过程。如,怎样设计表头、如何确定统计图中横轴的分类与纵轴的单位等。确定标准的过程就是学会度量的过程。因此,分类与度量是尤为重要的两种数学思想和科学研究方法,制订标准与按标准做事是非常重要的两件事,既涉及能力问题,也涉及情感态度甚至是价值观的问题。
具有随机性数据的统计分析称为推断分析(推断统计),例如通过求相关系数、回归方程结构模型等,再辅以描述统计的方法,人们就可以获得数据蕴含的更多“隐藏”信息。推断统计的核心是通过已经验了的事物推断未曾经验的事物,或者说通过样本推断总体。因此,抽样问题至关重要。
李金昌教授认为:统计分析的过程是一个循序渐进的过程,它既容忍误差的存在,又不断在认识过程中控制和降低误差,同时,对分析结论进行评估。在大数据时代背景下,和调研实验数据不一样,大数据的分析更为复杂,虽然小学阶段不要求学生学习大数据,但可以结合学生生活实际让他们知道大数据的存在、了解大数据的价值。
助理编辑