论文部分内容阅读
【摘要】数据素养是当今时代大学生应该具备的核心素养之一.为了加强大学生的数据素养教育,以概率论与数理统计课程中的基础性概念教学为依托,按照数据素养的十个维度,把数据素养教育融入数学的课堂教学中去.
【关键词】数据素养;概率论与数理统计;课堂教学;数学概念
当今是一个信息化浪潮时代,而信息却蕴含于数据之中,因此,数据素养是大学生应该具备的核心素养之一.Schield(2004)认为数据素养、信息素养和统计素养三者相互联系、相互作用、密不可分.这里我们以某财经类专科学院中的三年制学生为研究对象,以开设的概率论与数理统计课程为依托,探讨如何在课堂教学中基于基础性概念的讲解为例,培养学生的数据素养.同时,以数据素养中数据的数学定义、数据的敏感性、数据的来源、数据的清洗、数据整理、数据分析的内在逻辑、数据分析、数据挖掘、数据决策和数据预测十个维度为线索展开分析.
一、数据的定义
一般地,我们在分析一些事物时,它会表现出数个特征,其中的每一个特征,我们定义为一个变量.刻画水平、分类等特征的称之为定性变量,其他为定量变量.定量变量有连续型变量和离散变量两种.数据在概率论与数理统计这门课程中就定义为变量的观测值.例如,一方麦田里小麦的高度就是一个变量,我们若测得某株的高度为98厘米,这就是一个数据,一般来说,数据常常是一个集合名词,即每一个数据里包含很多观测值.因此,数据和变量紧紧相关,变量分为随机变量和常量.而随机变量的性质被其概率分布所决定,一件事情的概率就是该事件发生可能性的一个数量度量,其数值在0到1之间.一般我们所说的概率是指统计概率,而有些事件无法重复试验.例如,某一个人活到85岁的可能性为八成,这种概率称之为主观概率.事件的概率是进行数据分析、挖掘的基础性概念.
二、数据的敏感性
一个人在生活、学习、工作中,在与人、事、物的接触中要善于捕捉关键数字,形成对数字强的敏感性,很是重要.例如,在城市里坐公交车上下班,你要清楚最早的一班车是几点几分,最晚的一班车是几点几分,两班车之间的时间间隔是多长等.工作中所使用的工具或者仪器等,要对其特性、操作流程等进行数据化.以至于,家里做饭,每一道菜的做法,也要潜意识地数据化,否则不是材料配比不恰当,就是生熟火候不到等,做到色香味俱全,脑子里要有一套数据在指导.
三、数据来源
我们这个世界的每一个角落都充满了数据,来自经济的、政治的、文化的、教育的、科研技术的、军事的等等.不同的行业形成了不同数据平台,有开放的,有不开放的;有流动的,有储存在数据库里.例如,我们研究一个经济问题,我们可以到政府的金融、统计、财政、税务等部门的数据库或者其网站去搜寻,可以到行业企业的数据库或者网站去获取,以及一些经济方面的社交平台去抓取,也可以设计调查问卷去收集数据等等.
数学上,把数据分为一手数据和二手数据.一手数据是直接调查等方式获得的,也就是原始数据;二手数据是指在研究一个问题时,原始数据之外所用到的数据.因此,提高数据素养,我们要清楚怎样去获取数据,一是直接来自数据库,二是去抓取流动的数据,三是实验与调查,取得第一手数据.其中,在流动的数据中抓取数据,需要学习相关软件如爬虫等.
调查设计是获取原始数据的重要手段.对于调查对象的全体称之为总体,其中的对象为个体,部分个体组成样本.抽样分为系统抽样、分层抽样、整群抽样、多级抽样等,从容量为N的总体中产生样本为n的随机样本,常用方法是随机数法.例如,从1到100之間随机抽取20个整数,在R软件中,可以用语句sample(0:100,20)来实现.这些概念都是数据素养提高的载体.
四、数据清洗
清洗数据是为了形成目标数据以及提高数据质量.例如,常见的软件Excel为数据清洗提供了一系列的函数,比如,删除重复、查找替换以及拼音检查等.DataKleenr是数据清洗软件领域的新兵,它是一款全自动的解决方案,支持text、数字和二进制数据.它基于云,无须下载安装,只要有浏览器和网络即可.创建账户,所有的数据清洗操作都在云上进行;然后会加密、保存到您的私人工作区,通过账户登陆可以随时随地管理项目.学概率论与数理统计课程,需要基本学会这些软件.
五、数据整理
首先对数据进行审核,检验原始数据的完整性、准确性和时效性,按照一定的标准将原始数据进行分组、汇总,把数据列入表格.整理后的数据可以进一步可视化:运用相关软件如SPASS等,把数据变为规律性图形与色彩.像条形图、饼图、直方图、盒形图、茎叶图等,这几种图形仅仅代表一个变量的观察数据.对两个变量之间的数据关系,可以用散点图来描述,纵横坐标分别表示两个变量的取值.其他可视化图还有面孔图、地理图形,表示四个变量的星形图等等.
六、数据分析的逻辑
统计学的基本思维逻辑是:面对一个问题,提出一个假设,取得样本或者总体的数据,进行数据分析,然后肯定或者否定假设.用部分的特性推测整体的特性,用现在的数据推测未来的趋势.
七、数据分析
在统计思维的基础上,运用分析工具进行数据分析.统计量是不包含未知总体参数的样本的函数,用于估计的统计量称为估计量.汇总统计量主要包括样本均值、中位数、众数,表示数据中心的位置,均值涉及所有数据,中位数不易受极端数据的影响,具有稳健性.众数表示数据中重复出现次数最多的数据.尺度汇总统计量——样本方差、标准差、级差、标准误差,表示数据的离散程度.样本方差、标准差的差别在于量纲.求方差的分母用n-1,而不用n的原因是这样的样本方差是无偏估计量.标准误差是多个样本均值的标准差.
八、数据挖掘
要进行数据挖掘,还要搞清楚变量的常见分布,它表示随机变量的取值和相应概率的关系,随机变量取任意一值所得概率的变化规律称之为分布.熟悉这些分布(模型)是数据挖掘的重要一环,概率分布若知道了,就等于知道了总体.例如,我们知道某一门课程高考的分数服从正态分布,就相当于我们知道了这个总体. 离散型变量分布有:二项分布、多项分布、超几何分布、泊松分布等;连续型变量分布有:正态分布、卡方分布、学生分布、均匀分布、指数分布等.
例如,设有80%的学生能够考试及格,现随机问询7个人,则至少3个人能够考试及格的概率是多少?
九、数据决策
按照专科生概率论与数理统计课程的教学目标,包括简单的统计推断、总体参数估计与总体参数的假设检验.估计总体参数的统计量叫作估计量,常用的估计量就是样本的均值x、样本的标准差s、成功比例xn.估计包括点估计与区间估计,要根据现实的情况,采用哪种估计.例如,某产品“合格率是75%,误差±2%,其置信度95%”,这里合格率是一个区间(73%,77%),置信度是指对产生这样一个区间估计过程的一种信心.当然,我们希望区间窄,置信度大些好.
以假设检验进行决策基础是利用数据来证伪.假设检验中,一般要设立一个零假设(H0表示)和一个对立假设,称为备择假设(常用H1表示),设立这些假设的意图是指运用样本数据(一般更接近于备择假设),找出零假设和现实之间的矛盾,从而否定这个假设,这称之为显著性假设检验.在多数统计实验中的假设检验都是以否定零假设为目标,如果否定不了,那就说明证据不足,但零假设未必正确.判定方法如下:
P值是在零假设下,出现检验统计量的现实值.P值越小,说明样本数据不支持零假设,它是由样本数据决定,而显著性水平是由用户决定的.
十、数据预测
前面的数据分析,都是基于单一变量,但是世界上一个问题中常常涉及相互关联的多个变量.关心变量和其他有关变量之间的关系,一般称为模型.因此,它们形成函数关系Y=f(X),这里Y称为因变量或者响应变量,X称为自变量或者解释变量、协变量.寻找这种关系的过程叫作回归,建立回归模型后可以进行预测.例如,一元线性回归模型如下:
这样,我们取所谓未来的X的一个数值,可以得到预测值Y.
十一、结束语
通过上面的研究,我们把数据素养的十个维度和概率论与数理统计课程中基本概念紧紧地交织在一起,由此,在概率论与数理统计的课堂教学中就融入了数据素养教育,从而摸索进行数学课堂教学模式的改进.课题组相关成员一年多的课堂教学实践表明,能够达到预期目标,教学效果良好.
【参考文献】
[1]Schield M.Information literacy,statistical literacy and data literacy[J].Iassist Quarterly,2004(2-3):7-14.
[2]徐群芳.《概率論与数理统计》课程教学的探索与实践[J].大学数学,2010(1):10-13.
[3]王庚.《概率论与数理统计》课程的一种新教改模式[J].南京财经大学学报,2009(2):102-105.
[4]周兴才.应用型本科院校概率论与数理统计教学研究[J].湖北文理学院学报,2011(5):60-63.
[5]朱德全.数学素养构成要素探析[J].中国教育学刊,2002(5):49-51.
[6]张静波.大数据时代的数据素养教育[J].科学,2013(4):29-32.
[7]郑毓信.简论数学课程改革的活动化、个性化、生活化取向[J].教育研究,2003(6):90-94.
[8]章建跃.全面深化数学课改的几个关键[J].课程·教材·教法,2015(5):76-80.
【关键词】数据素养;概率论与数理统计;课堂教学;数学概念
当今是一个信息化浪潮时代,而信息却蕴含于数据之中,因此,数据素养是大学生应该具备的核心素养之一.Schield(2004)认为数据素养、信息素养和统计素养三者相互联系、相互作用、密不可分.这里我们以某财经类专科学院中的三年制学生为研究对象,以开设的概率论与数理统计课程为依托,探讨如何在课堂教学中基于基础性概念的讲解为例,培养学生的数据素养.同时,以数据素养中数据的数学定义、数据的敏感性、数据的来源、数据的清洗、数据整理、数据分析的内在逻辑、数据分析、数据挖掘、数据决策和数据预测十个维度为线索展开分析.
一、数据的定义
一般地,我们在分析一些事物时,它会表现出数个特征,其中的每一个特征,我们定义为一个变量.刻画水平、分类等特征的称之为定性变量,其他为定量变量.定量变量有连续型变量和离散变量两种.数据在概率论与数理统计这门课程中就定义为变量的观测值.例如,一方麦田里小麦的高度就是一个变量,我们若测得某株的高度为98厘米,这就是一个数据,一般来说,数据常常是一个集合名词,即每一个数据里包含很多观测值.因此,数据和变量紧紧相关,变量分为随机变量和常量.而随机变量的性质被其概率分布所决定,一件事情的概率就是该事件发生可能性的一个数量度量,其数值在0到1之间.一般我们所说的概率是指统计概率,而有些事件无法重复试验.例如,某一个人活到85岁的可能性为八成,这种概率称之为主观概率.事件的概率是进行数据分析、挖掘的基础性概念.
二、数据的敏感性
一个人在生活、学习、工作中,在与人、事、物的接触中要善于捕捉关键数字,形成对数字强的敏感性,很是重要.例如,在城市里坐公交车上下班,你要清楚最早的一班车是几点几分,最晚的一班车是几点几分,两班车之间的时间间隔是多长等.工作中所使用的工具或者仪器等,要对其特性、操作流程等进行数据化.以至于,家里做饭,每一道菜的做法,也要潜意识地数据化,否则不是材料配比不恰当,就是生熟火候不到等,做到色香味俱全,脑子里要有一套数据在指导.
三、数据来源
我们这个世界的每一个角落都充满了数据,来自经济的、政治的、文化的、教育的、科研技术的、军事的等等.不同的行业形成了不同数据平台,有开放的,有不开放的;有流动的,有储存在数据库里.例如,我们研究一个经济问题,我们可以到政府的金融、统计、财政、税务等部门的数据库或者其网站去搜寻,可以到行业企业的数据库或者网站去获取,以及一些经济方面的社交平台去抓取,也可以设计调查问卷去收集数据等等.
数学上,把数据分为一手数据和二手数据.一手数据是直接调查等方式获得的,也就是原始数据;二手数据是指在研究一个问题时,原始数据之外所用到的数据.因此,提高数据素养,我们要清楚怎样去获取数据,一是直接来自数据库,二是去抓取流动的数据,三是实验与调查,取得第一手数据.其中,在流动的数据中抓取数据,需要学习相关软件如爬虫等.
调查设计是获取原始数据的重要手段.对于调查对象的全体称之为总体,其中的对象为个体,部分个体组成样本.抽样分为系统抽样、分层抽样、整群抽样、多级抽样等,从容量为N的总体中产生样本为n的随机样本,常用方法是随机数法.例如,从1到100之間随机抽取20个整数,在R软件中,可以用语句sample(0:100,20)来实现.这些概念都是数据素养提高的载体.
四、数据清洗
清洗数据是为了形成目标数据以及提高数据质量.例如,常见的软件Excel为数据清洗提供了一系列的函数,比如,删除重复、查找替换以及拼音检查等.DataKleenr是数据清洗软件领域的新兵,它是一款全自动的解决方案,支持text、数字和二进制数据.它基于云,无须下载安装,只要有浏览器和网络即可.创建账户,所有的数据清洗操作都在云上进行;然后会加密、保存到您的私人工作区,通过账户登陆可以随时随地管理项目.学概率论与数理统计课程,需要基本学会这些软件.
五、数据整理
首先对数据进行审核,检验原始数据的完整性、准确性和时效性,按照一定的标准将原始数据进行分组、汇总,把数据列入表格.整理后的数据可以进一步可视化:运用相关软件如SPASS等,把数据变为规律性图形与色彩.像条形图、饼图、直方图、盒形图、茎叶图等,这几种图形仅仅代表一个变量的观察数据.对两个变量之间的数据关系,可以用散点图来描述,纵横坐标分别表示两个变量的取值.其他可视化图还有面孔图、地理图形,表示四个变量的星形图等等.
六、数据分析的逻辑
统计学的基本思维逻辑是:面对一个问题,提出一个假设,取得样本或者总体的数据,进行数据分析,然后肯定或者否定假设.用部分的特性推测整体的特性,用现在的数据推测未来的趋势.
七、数据分析
在统计思维的基础上,运用分析工具进行数据分析.统计量是不包含未知总体参数的样本的函数,用于估计的统计量称为估计量.汇总统计量主要包括样本均值、中位数、众数,表示数据中心的位置,均值涉及所有数据,中位数不易受极端数据的影响,具有稳健性.众数表示数据中重复出现次数最多的数据.尺度汇总统计量——样本方差、标准差、级差、标准误差,表示数据的离散程度.样本方差、标准差的差别在于量纲.求方差的分母用n-1,而不用n的原因是这样的样本方差是无偏估计量.标准误差是多个样本均值的标准差.
八、数据挖掘
要进行数据挖掘,还要搞清楚变量的常见分布,它表示随机变量的取值和相应概率的关系,随机变量取任意一值所得概率的变化规律称之为分布.熟悉这些分布(模型)是数据挖掘的重要一环,概率分布若知道了,就等于知道了总体.例如,我们知道某一门课程高考的分数服从正态分布,就相当于我们知道了这个总体. 离散型变量分布有:二项分布、多项分布、超几何分布、泊松分布等;连续型变量分布有:正态分布、卡方分布、学生分布、均匀分布、指数分布等.
例如,设有80%的学生能够考试及格,现随机问询7个人,则至少3个人能够考试及格的概率是多少?
九、数据决策
按照专科生概率论与数理统计课程的教学目标,包括简单的统计推断、总体参数估计与总体参数的假设检验.估计总体参数的统计量叫作估计量,常用的估计量就是样本的均值x、样本的标准差s、成功比例xn.估计包括点估计与区间估计,要根据现实的情况,采用哪种估计.例如,某产品“合格率是75%,误差±2%,其置信度95%”,这里合格率是一个区间(73%,77%),置信度是指对产生这样一个区间估计过程的一种信心.当然,我们希望区间窄,置信度大些好.
以假设检验进行决策基础是利用数据来证伪.假设检验中,一般要设立一个零假设(H0表示)和一个对立假设,称为备择假设(常用H1表示),设立这些假设的意图是指运用样本数据(一般更接近于备择假设),找出零假设和现实之间的矛盾,从而否定这个假设,这称之为显著性假设检验.在多数统计实验中的假设检验都是以否定零假设为目标,如果否定不了,那就说明证据不足,但零假设未必正确.判定方法如下:
P值是在零假设下,出现检验统计量的现实值.P值越小,说明样本数据不支持零假设,它是由样本数据决定,而显著性水平是由用户决定的.
十、数据预测
前面的数据分析,都是基于单一变量,但是世界上一个问题中常常涉及相互关联的多个变量.关心变量和其他有关变量之间的关系,一般称为模型.因此,它们形成函数关系Y=f(X),这里Y称为因变量或者响应变量,X称为自变量或者解释变量、协变量.寻找这种关系的过程叫作回归,建立回归模型后可以进行预测.例如,一元线性回归模型如下:
这样,我们取所谓未来的X的一个数值,可以得到预测值Y.
十一、结束语
通过上面的研究,我们把数据素养的十个维度和概率论与数理统计课程中基本概念紧紧地交织在一起,由此,在概率论与数理统计的课堂教学中就融入了数据素养教育,从而摸索进行数学课堂教学模式的改进.课题组相关成员一年多的课堂教学实践表明,能够达到预期目标,教学效果良好.
【参考文献】
[1]Schield M.Information literacy,statistical literacy and data literacy[J].Iassist Quarterly,2004(2-3):7-14.
[2]徐群芳.《概率論与数理统计》课程教学的探索与实践[J].大学数学,2010(1):10-13.
[3]王庚.《概率论与数理统计》课程的一种新教改模式[J].南京财经大学学报,2009(2):102-105.
[4]周兴才.应用型本科院校概率论与数理统计教学研究[J].湖北文理学院学报,2011(5):60-63.
[5]朱德全.数学素养构成要素探析[J].中国教育学刊,2002(5):49-51.
[6]张静波.大数据时代的数据素养教育[J].科学,2013(4):29-32.
[7]郑毓信.简论数学课程改革的活动化、个性化、生活化取向[J].教育研究,2003(6):90-94.
[8]章建跃.全面深化数学课改的几个关键[J].课程·教材·教法,2015(5):76-80.