数据背后的秘密

来源 :中学数学杂志(高中版) | 被引量 : 0次 | 上传用户:dddddddddddddzzzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  笔者先前对在校的1000多名高三学生进行了调查,了解他们对统计知识的认识,结果令人吃惊,多数学生片面地认为统计就是一个考点,就是计算和读图.这一普遍现象表明,当前高中统计教学的重点仍在数据的计算上,高考的“导向”作用使得统计教学也沦为了“考算术”,没有达到课程预设的目标.
  数字是统计的语言,数据是统计的原料.教育者应该思考如何培养学生良好的统计意识,这不仅是一种数的感觉,更是一种思维方式.换句话说是当学生遇到实际问题时,想到为什么需要去、怎样去收集数据.收集数据、整理数据和分析数据,并结合实际作出推断和决策.
  1数据从何而来
  收集数据是解决统计问题的第一个步骤.思考数据从何而来,认识抽样的必要性和有效性至关重要,它是培养学生良好统计意识的一大法宝.
  1.1大、小样本之争
  先谈抽样的必要性.对于收集数据,很多学生都有疑问“为什么不看全部(总体)?”.为此,抽样起始课有必要向学生介绍一下普查.普查是一种企图把总体纳入样本的调查方式,它不进行抽样直接调查分析总体.经典实例是“人口普查”,新中国先后进行了六次全国人口普查,统计每个人的性别、年龄、学历、体征等信息,并汇总整理分析,为我国今后制定人口政策提供了依据.普查在现实生活中意义重大,尤其是调查研究容量较小的总体时.
  有的学生误以为“普查总比抽查好”.都知道使用普查或较大容量的样本(大样本)随机误差是微不足道的.但对总体了解越仔细、越全面,所要付出的“成本”就越高,有时反而会“得不偿失”.当总体包含个体很多甚至无限,逐一调查是很难的,甚至是不可能的;还有一类,例如要了解灯泡的使用寿命、牛奶的质量等,不能带有破坏性地逐个检验.俗语“你不必吃完整头牛,才知道肉是老的”,有些调查有必要甚至必须抽样,并据此作为依据推测总体.
  1.2好、坏样本之辩
  再谈抽样的有效性.“样本能完全反映总体吗?如何降低抽样过程中带来的误差?”这是学生的另一大疑惑.比较经典的反例是“1936年兰登、罗斯福总统之争”,样本选择了兰登,而选民心里却想着罗斯福,产生巨大误差的原因是通过电话调查的对象不能真正代表选民,它们在经济上富有,对共和党候选人兰登有较强的诉求,严重偏离了总体.只要抽样,总体中的部分个体就会未纳入调查,这时就容易出现样本代表性偏差的问题.甚至,对于同一总体,不同的人用同样的抽样方法,组成的样本也不尽相同(即使同一个人做两次,结果也不会完全一样),不同样本得到的统计结果也会不相同.要让学生明白抽样具有随机性,统计结果也具有随机性.
  估计总体必须使用有代表性的样本.尽管抽样带来的偏差不可避免,学习不同的抽样方法意在降低抽样带来的误差,样本的随机性是满足样本有效性的根本保证.怎样获得一个好样本呢?抽样成功的检验标准是:保证总体中的每个个体等可能(机会均等)入选样本,使样本成为随机样本.随机并不是随意,样本要客观地反映总体,事实上强调抽样保证随机性恰是保证抽样有效性的前提.具体来说,在抽签法中“搅拌均匀”以使每个个体入样的机会相同,确保了抽样的随机性;在随机数表法中要保证选取的第一个随机数是随机抽取的,取数方式也是随机的;在系统抽样中要保证第一个个体入选样本的随机性,分组要严格按照随机方法进行分组,可以认定加上间隔后得到的这组样本是随机选取的;分层抽样成比例缩小取样空间,在相对容量小的每层中进行简单随机抽样或系统抽样,保证了随机性.
  下面谈一下抽样方法的适用范围.简单随机抽样理论上能有足够把握保证随机性,但它同样存在着缺陷,当总体数量过大均匀搅拌难度很大,获得这种样本十分昂贵,以至于单纯的经济考虑就会剔除这种方法.当总体容量很大,个体差异不大的前提下,分组等间隔的系统抽样可有效降低抽样的难度.而对于个体差异较大的总体,为了确保准确性有效性,最有效的办法是准备在每一层(性质相同的个体整体)中,以随机抽取的方式构成样本,即在各层内部获得层样本形成总样本.显然分层抽样是一个更经济的替代品,它在现实生活的市场研究和民意调查等领域中得到了广泛的应用.
  抽样的教育价值在于让学生学会用手中少量数据,对重大问题做出明智的决策.大、小样本之争告诉我们,要得到“手中少量的数据”,这就需要抽样了,使用容量足够小的样本(小样本)——甚至不需要多少成本,抽样调查要比普查划算.好、坏样本之辩告诉我们统计结果具有“可错性”,不存在“最优解”,根据不同客观情景使用抽样调查、选择合适的抽样方法相当重要.建议教师在教学中帮助学生理解不同抽样方法的适用范围,揭示各操作步骤之间的联系,在具体操作时不要漏掉某些关键步骤.如果不把这一点说清楚,只单纯地介绍三种抽样方法就讲偏了.
  2功能强大的“统计图表”
  抽到的原始数据一般是杂乱无章的,需要加以整理.整合数据是解决统计问题的第二个步骤,是统计的一个强有力的工具.整合数据的方式有两种:一是图、表;二是统计量.高中数学主要涉及三种统计图:频率分布直方图、茎叶图和散点图,包括制作和理解两个方面的要求.根据实际,用什么样的图表来展示数据? 在图表中,数据表现出了怎样的趋势和性状? 能从图表中得到什么样的结论?这是学生的疑惑.调查反映出学生容易混淆频率分布直方图、茎叶图和散点图的适用范围,辨不清它们各自功能的异同;学生对统计图的错误观念突出表现为两点:错误的选用统计图表;统计图视觉上的误解.
  2.1频率分布直方图
  当收集到的数据容量偏大时,逐个分析计算变得很困难,绘制频率分布直方图是个不错的选择.绘制频率分布直方图需要一定的功底,一是要保证分组等宽度,组界明确,不出现遗漏数据和重复统计的情形;二是保证组距、组数合理,分组太少就像盖摩天大楼,所有数据都落在少数组;分组太多,就像摊煎饼,大部分组中仅有一个几个观测值,甚至没有观测值;这两种情形都不能有效描述数据的分布情况.事实上,作为高中生来讲,这是易错点不是重点,要帮助学生明确画统计图不是目的,画统计图的目的是帮助我们了解数据背后的信息.频率分布直方图功能强大,俗语“浓缩的是精品”,要确立画完直方图后的一句话“我看到了什么?”,首先看到的是小矩形间面积的差异,这正好对应各组数据间频数、频率间的差异;其次要强调审图的策略:注意力的重点是找中心、看散度(集中、分散的程度).找中心(直方图中的众数、中位数和平均数),其中众数是分布中“尖峰”的中值,中位数是分布的中间点,把观测数据(面积)对半分;再说直方图的散度,看图像的起伏程度,它对应于数据的方差.   事实上,绘制频率分布直方图是以丢失一部分信息为代价的,当然数据容量大时丢失的数据可能对我们要处理的问题没用,频率分布直方图无法恢复原来的数据.当样本容量足够大组数增多组距逐步减小,频率分布直方图就从折线图演变为理想化的正态分布.当数据呈正态分布时,平均数、中位数和众数“三位一体”,取同一数值.
  2.2茎叶图
  频率分布直方图并不是唯一选择,茎叶图的应用也非常广泛,如体育赛事等应急情况.使用茎叶图解决统计问题有两个突出的优点:一是绘制图形没有损失信息,它保留了原始的观测数据;其二,茎叶图可以随测随录,可以表示两个人以上的比赛结果,简便易操作.绘制茎叶图时区分茎、叶是为了方便登录数据,规定数据的头一位或头几位为茎就等于自动选择了组距.有时茎叶图也显得力不从心,当统计数据容量过大时,每个茎都有很多叶(数据),绘制、读取及解读很困难;当数据位数较多时,茎叶图只能表示“两位”整数,茎叶图的组(茎)没得选择,表示的记录就会不直观不清晰.
  同样,和频率分布直方图一样,解读茎叶图应该要看图形的整体形态,说白了茎叶图就像侧躺的直方图,茎叶图是枝繁叶茂还是一枝独秀,反映数据的散度截然不同.
  2.3散点图
  为了清晰认识散点图,我们从散点图与折线图的区别谈起.散点图反映的是两个关联变量间的相关关系,而折线图主要反映两个变量间的变化趋势.解读散点图的关键在于观察样本点形成图象的整体形态、走向,进而区分正负相关,事实上,求解回归方程,使用最小二乘法及计算相关系数都不是重点,应关注方程的意义和合理性.如在圆上随机取一组点,用这组点的坐标套用公式仍可求得一个回归直线方程,这样的直线显然是没意义的,所以不关注图形的计算是“不合理的”.
  统计图表的教学一定要注意的是“不要把统计图表讲成如何画图表、根据公式运算”, 而应侧重于帮助学生挖掘不同统计图表的功能及优劣,并能根据不同情境选择合适的图表.上述三种图表都可以“找出中心和看出散度”,这些都直观地展现在眼前.统计图表的教育价值在于思考图表能告诉我们何种信息,以及体会用图形形态呈现信息、辅助做出统计推断进行决策的过程.
  3数“聚”力量
  数据本身没有价值,数据的价值在数据背后.收集数据、绘制图表固然重要,但更重要的是解读数据,这刚好对应统计问题的第三步统计推断.统计推断能力是学生使用很简单的方法,也能很睿智地解读数据.从数据中提取信息,并利用这些信息说明问题,在这个过程中,形成对数据的意识,养成会拿数据“说事”的习惯,这种能力已经成为高中数学课程要培养学生形成的一个基本能力.
  3.1惊喜从认识“统计量”开始
  每个统计量都有规则合法的计算方法,统计量不是单纯的数字,它是有“内容”的,每种数据都代表着不同的意义.尽管现实生活中使用的统计量很多,但应用广泛的仅是少数,高中数学我们主要关心两个指标,即集中趋势和离散程度.描述集中趋势的有平均数(期望、均值)、众数、中位数等;描述离散程度的统计量有方差、极值等.
  平均数是刻画集中趋势最普遍的代表数,具有较大的可靠性,但它的缺点是易受极端数据的影响.中位数的优点是不受极端数据的影响,即使两端存在未知数据时,中位数依然可以求得.众数的出现只与数据出现的频数有关,也不受极端数据的影响.在这三个特征数中,最有价值、用得最多的无疑是平均数.如平均速度、平均身高、平均工资、平均寿命、平均温度、平均降雨量、平均能耗等,人们早已耳熟能详.学校也经常用班级的平均分来对各班成绩进行衡量.而用中位数或众数来给各班的成绩定优劣、给各个教师的教学质量定高低之举,人们却鲜有耳闻.这是为什么呢?首先,这是因为平均数具有另两个特征数都不具备的独特优点:它用到了组内所有数据的信息.平均数既然是由全体数据“糅合”而成,那么用它来刻画这组数据的集中程度和整体水平,当然就最合理、最可靠、最令人信服.其次,平均数易受极端数据影响的缺点可以借助一些技术手段予以克服.例如,在比赛中,人们常常在计算平均数时不考虑极端数据的情况,赛手的成绩就是通过从评分中去掉一到两个最高分和最低分得出来的.
  人们习惯用极差、方差(标准差)来描述一组数据的波动程度(离散程度),它们越大,说明数据的波动越大;反之,越小.在分析数据时,当平均水平一致时,为了更好地根据统计结果作出合理的判断和预测,往往会根据极差和方差来判断数据的稳定性,从而作出正确决策.
  统计量的核心价值就是从量化的数据中找出信息,并得出结论,完成统计推断.建议教师多采用案例教学的方法,一切从实际出发培养学生运用多重数据指标(统计量),做出正确的推断.
  3.2理解数学期望,离不开“权重”
  调查表明约1/3的学生表示对数学期望的认识仅局限于计算,学生只知道用公式将随机变量与概率值连接起来得到数学期望值,对其定义的理解表现为“没有什么实际的意义”或“不可理解”.如:随机抛掷一枚骰子,所得点数的期望Eξ=35,很多学生反映对这一结果难以理解.因为骰子的点数只存在6个整数,不可能出现35这样一个带有小数点的数字结果,那么35这一数值到底是什么含义?它与实际值之间有何种联系呢?事实上,计算结果应该是多次实验后出现的实际值的平均数,刚好反映了数学期望值的确定性与实际值不确定性之间的联系.这样数学期望与平均数建立了联系,它反映的是随机变量取值的平均水平.
  数学期望本质是一种加权的平均,学生理解加权平均数中“权”的涵义也是比较困难的.事实上,数学期望概念中概率担当的角色就是加权平均数中“权重”的角色.尽管数学期望和平均数及加权平均数都是一个具体的数,它反映的是平均值.而数学期望表示的是一种“可能性”的大小,是对“未来”的预见.意思是说在若干次试验后,该数值(数学期望)或相近值出现的可能性最大,但并不能确切的说平均值是多少.
  从算术平均数到加权平均数,再到数学期望,其实是一个很大的跨越.从内容上讲,是一个逐步深入的螺旋上升的过程,从方法上讲,是科学性不断加强的过程.笔者建议教师在进行数学期望(方差)的教学之前,要符合学生的认知规律,先借助一些简单的实际问题复习之前学过的加权平均数(如:混合糖果的单价问题等),复习“权重”在计算平均数中的作用,使之自然地过渡到对数学期望概念的教学,帮助学生更好地理解数学期望和加权平均数之间的联系,从而能较好地解决实际应用问题,学会用数据回答我们面对的问题.
其他文献
【摘 要】 以预期学习结果为起点,评价先于教学活动的逆向教学设计模式能有效体现数学学科核心素养.本研究在逆向教学设计基本理念指导下,对高中数学“幂函数”展开设计,并提出逆向教学设计应该做到:剖析课程标准,明确学习目标;转变评价方式,促进学习评价;注重知识建构,形成整体思维.  【關键词】 数学核心素养;逆向教学设计;学习目标;评价优先      数学核心素养是数学课程改革的新指向,是数学教育的培养
刚刚发布的2006年上半年的统计报告显示,国民经济总体运行良好,但经济运行中也出现了一些新的比较显著的问题。尤其是农资价格上涨较快、农产品价格却增长有限,出现了罕见的新“剪刀差”现象。  今年很多地方农村庄稼长势不错,政府补贴也到位及时,但化肥涨价增大了农民成本,增产不增收,这不仅抵消了国家为减轻农民负担所出台的取消农业税等努力,而且已经缩小的城乡收入差距有再次拉大的趋势。农民从高速发展的经济中,
【摘 要】 单元教学设计是运用系统方法对单元内容进行优化重组的教学策略.单元不是把教学内容碎片化来处置,而是有机地、模块式地组织与构成.本文以古典概型的教学过程为例,探究指向核心素养的单元教学设计的策略和方法.  【关键词】 单元教学设计;高中数学;核心素养      指向核心素养的单元教学设计,要求以各学科具体核心素养为纲领,整合学科核心观念,精选与重组学科内容,倡导学科“大主题”与“大过程”的
我吞了一口唾液,那声音在夜的静寂中居然发出意外回声,在此时才真正体会到自己是那么孤独无助    传说是龙王云游至此,因留恋这里极致美丽的风光而化作群山俯卧在这里。于是,这方神奇的土地有了一个形象的名字“卧龙”。  联合国教科文组织第30届世界遗产委员会会议7月12日一致决定,将以四川卧龙为核心的大熊猫栖息地作为世界自然遗产列入《世界遗产名录》。这是中国第32处世界遗产。  此次申报的大熊猫栖息地的
含参数的不等式问题是近几年高考一直考查的重点、热点和难点,可谓常考常新.本文对2020年全国Ⅰ卷第21题“函数与导数”压轴题进行思考与探究,揭示其解题思想方法,挖掘内涵,展开联想,应用提升,让复习课更有针對性、更有时效性、更有吸引力.  以上我们从一道最新高考题出发,通过分析、解答,归纳出“参变分离·构造函数”法的解题思想.在四种联想和五种应用中,深化认识、加深理解、感悟方法.整个过程,融观察分析
文章编号:1006-9860(2020)04-0029-13  一、问题提出  近期,围绕“停课不停学”,全国上下开展了一场迄今为止规模最大的在线教育服务保障大作战,掀起了数字教育资源开放运动热潮,以国家队、地方队、社会队为代表的数字教育资源提供方纷纷登场,教育内容、工具、平台如潮水般涌来。专家学者、名校名师、乃至一线草根热议“教什么、怎么教、如何学”。关于“停课不停学”的研究与讨论,主要集中在三
摘要:自我评价及同侪互评活动遵循“教一学一评一体化”的原则,在学习者通过评阅和反思自己及同伴作业的过程中综合发挥“导向、鉴定、诊断、调控和改进”的作用,从而实现评价的学习性功能。该文在对线上学习者参与评价内涵、实践基础及作用与影响因素诸方面进行理论阐释的基础上,以参与线上线下混合课程学习的本专业学生为对象,采集了在线评价活动时的相关信息,运用Rasch分析工具及SPSS统计软件分析了自我评价及同伴
事实上没人指望陈水扁会因此下台。人民所要的,其实就是羞辱他,表现出我们的民主虽然被他践踏,但是人民不是傻瓜    台北街头的朝九晚五,总是繁华中带着匆忙、奔竞中透着些许秩序,这一点即使在“百万人反贪腐”大旗下的“倒扁”运动正如火如荼的当下,依然没有改变。  早晨,参加静坐“倒扁”的上班族们一边比画着“倒扁”手势,一边换上西装赶赴公司,傍晚,他们又脱下体面的套装,穿上火红的“倒扁”装,高呼着“阿扁下
摘要:随着我国在线课程的快速发展和国家对智能教育发展任务的提出,如何推进人工智能与高等教育之间的深度融合,加速高等教育从数字化、网络化向智能化跃升,提升在线课程建设质量,促进高等教育创新发展,已经成为高等教育领域的全局性、长期性、战略性问题。作为人工智能与高等教育之间深度融合的重要载体,在线课程知识图谱是智能教育发展的核心影响因素。该文分析了智能教育的基本内涵、智能教育与知识图谱的紧密关系,总结了
对祝均一来说,遭遇神秘富豪张荣坤,可能就是断送了他政治生涯的原因之一    上海市防汛指挥部8月9日发布消息说,由于今年第8号台风“桑美”逼近我国东南沿海时哈逢大潮汛,上海黄浦江沿线10日起可能开始连续4天出现超过警戒线的高潮位。有关各方均被告知,要采取紧急防潮措施。  但上海官场的台风却在当天就已经到来。  8月9日,原上海劳动和社会保障局局长祝均一被免职;同时,祝本人请求辞去全国人大代表的职务