论文部分内容阅读
2018年1月席卷全国“惨无人道”灾难大片——《期末考试》在命题导演精心编剧下终于在各学校隆重登场放映了,经过广大学子紧张复习、考试,某校2017—2018学年度上学期期末考试结束,在园丁们辛苦、认真而紧张有序地评卷、统分下,老师、家长、学生最关心的——考试成绩终于出来啦!于是,我们可能会碰到下列情景:
〔情景一〕七年级五班班主任王老师给小明的爸爸发微信:“……语文78分,数学86分……”,给小华的妈妈发微信“……语文81分,数学75分……”;因此小华的语文比小明好,小明的数学比小华好;
〔情景二〕王老师经过核算、统计,得到七年级五班语文平均分为76.8分,数学71.6分,因此王老师隐约觉得本班语文整体成绩比数学整体成绩好;
〔情景三〕随后该校教务处公布了本次七年级全校各科平均分“……语文77.1分,数学62.2分……”,虽然此七年级五班语文平均分比数学平均分高,但语文平均分比全校低而数学高于全校平均分;
〔情景四〕小明的爸爸经过和2017年11月的期中考试对比,发现小明的语文期中考试76分,认为期末考试进步了2分;数学期中考试91分,认为期末考试退步了5分,很担心小明的数学学习情况。王老师通过这两次考试在班上名次的对比发现小明的語文期末考试虽然从分数上看进步了2分但班级名次却比期中考试退了3个,数学期中考试91分班级名次第21名,期末考试虽然86分但班级名次第9名,实际上是进步了。
一、成绩分析的基石——原始分
“考考考老师的法宝,分分分学生的命根”等有关调侃考试及成绩的段子在网上层出不穷。情景中涉及的考试分数、平均分、名次等可能是考试后广大教师、家长、学生碰到最关心、最现实、最直接的问题。
不可否认,考试是检验教育教学成果的重要手段,用于检测教师教学是否达到教学目标以及达到目标程度、测试学生学习水平的重要手段之一,常用随堂试、阶段试、综合多科目等调研测验等来进行分析评价。我们通常说的考试分数是指考试的原始分数,也就是通过一定的评分标准和尺度对考生答题情况进行最直接评判得到的分数。
依“凡物之存在必有其数,凡有数之物均可量”,分析统计的来源和依据就是考试分数,对原始分数进行统计分析与加工,评价学生学习相对水平,衡量教师教学质量并引导下一阶段的教与学,以促进整体教学健康、有序、综合发展。根据有关教育测量、统计、评价理论和模型,全面而科学地进行考试统计分析的并提供可量化的指标,是考试成绩统计分析中最常见的工作。
考试原始成绩(分数)的高低,固然与学生个体的学习程度有直接关系,但就整体而言,成绩与命题难度、命题人习惯、考试性质、考试范围、考试环境、评卷等有很大关系。一般而言考试性质来说选拔性考试(如高考),由于有上一级学校选拔人才的综合性考试,需要有一定的“坡度”和区分度将将不同层次学习水平的人才挑选出来,命题要比平时考试要难些;合格性考试(如学业水平考试、毕业考试等)要让大多数人能合格(毕业)因此命题难度可能相对简单些,不能太难;平时的测验性考试(月考、期中考、期末考等)既要兼顾毕业因素又要考虑选拔性功能等命题难度会折中综合考虑难度相对适中。
无论何种考试,都是为了对教学的总结、分析、评价、诊断,原始分数永远是这些工作的基础和依据,所有分析加工数据来源于最原始的分数,是富丽堂皇的分析、评价、诊断大厦的奠基石,离开了原始分这块基石和第一手资料,任何分析、评价都是无法让人信服的,成为无源之水无本之木。
二、成绩中的老大——平均分
考试成绩的平均分几乎是每次考试不可回避的指标,是一个最普遍、非常重要、最易于被社会接受的一个量化指标。是所有考生原始成绩的总和除以考生人数,也就是把学生的考试成绩作为观测对象计算他们的算术平均值,也叫均分或人均分。平均分通俗易懂,在EXECL或一些数据库系统中均有函数可以计算得到。平均分是很实用的评价参数,因为简明易懂、反应灵敏、较少受抽样样本变动影响等,反映成绩数据的总体集中趋势,是对成绩数据的最佳估计值,最具代表性的集中量数。
但是和统计学的一般原理一样,凡涉及算术平均数的问题很容易受极端值的干扰,一个典型的例子就是有关部门公布人均收入时被广大网友戏称严重拖后腿的“被平均”,把一个身价亿万的富翁和几个身无分文的人一起计算,平均计算为身价“千亿富翁”一样。
因此平均分有时需要和中数、众数等指标放结合起来分析评价才更有说服力和权威性。
所谓中数就是成绩按照从大到小或从小到大排序,位于正中间的那个数,也就是成绩高于中位数的人数和成绩低于中位数的人数各占50%,也叫中位数。如果总人数N为奇数,那么第(N+1)/2人的分数即为中数;如果总人数N为偶数,那么第N/2和第N/2+1人的分数的算术平均值为中数。
所谓众数就是一组数中出现次数最多的数值,既要统计这个数值又要统计这个值出现的次数。
中位数仅与数据排列顺序有关,不易受极端值影响,中位数可能出现在所给的这组数中,也可能不在这组数中(原因是第N/2和第N/2+1人的分数的算术平均值可能不在这组数中),当一组数据个别数据变动较大时,可用中位数描述这组数据的趋势,并且计算量也较小。
众数是一组数据中某一个值出现次数最多时,大家往往最关心的,不受极大值或极小值的影响,这是众数的最大优势。缺点是可能有多个众数(出现次数大致相当)但次数都比较小时可靠性较小,局限性大,当样本所有值出现次数相同时称为没有众数。
例如10名员工,年收入从小到大排序分别是(单位:万元):3,4,4,5,5,6,6,6,10,18,通过计算可以得到这10人的平均数(收入)为:,6.7不是这10个数据中任何一个因此是个“虚数”;中位数是第5位(此时是5)和第6位(此时是6)的算术平均值5.5,5.5也不是这10个数据中的任何一个,同样是个“虚数”;众数是6(出现的次数最多为3次)。 假如年收入18万的员工是个热衷福利事业的彩票迷(赌徒),将18万都拿去买彩票,结果运气超级不错,中1000万的双色球大奖,这10人的平均数(收入)将是:,显然104.9更不是这10个数据中的一个,也是“虚数”;中位数和众数将还是保持不变,分别还是将还是5.5和6,因此中位数和众数不易受个别极端值的影响。此时统计部门会说人均年收入破百万,成为名副其实的百万富翁,达到近105万元,是不是多数人拖了后腿收入“被平均”呢?
平均数、中位数、众数都是描述一组数据集中趋势的量,都有单位;
平均数反映一组数据的平均水平,与这组数据中每个数都有直接的关系,因此最重要,应用也最广;
众数与各组数据出现的频数(次数)有关,不受个别数据的影响,代表大多数水平有时是人们真正最为关心的问题;
中位数不受个别偏大值和偏小值的影响。
有老大哥——平均分,可以得到与此有关的指标例如难度(得分率)、均分达成率等,难度就是全样本平均分除以相应满分(注意:是全样本而不是部分抽样数据),得分率是样本平均分除以相应满分,有人说难度就是得分率,这是不完全正确的,因为难度是对于全样本统计的(例如某地级市的中考全体考生,不能抽取某个学校、某个班计算难度),得分率可能是全样本的数据(此时与难度一样)也可能从中抽样的某个班级、学校或区县的数据。均分达成率是样本中达到或超过总体样本平均成绩数量的百分比率,就是本单位(如学校)高于或等于整体(如全市)平均分的人数占本单位人数的百分比。
平均分(得分率)与均分达成率成正方向“相关性”,即样本平均分大,均分达成率就高,因此,均分达成率仅作参考指标。在平均分的基础上,得分率容易理解,得分率的作用是不同总分学科的比较。均分达成率避免采用简单比较均分距值(全样本平均分减去抽样(某校、某班)平均分)的方式中成绩数据中极值的影响,做到比较全面、客观、公正。尤其有利于纵、横比较,即同一次考试中,不同学科的比较和不同考试中同一学科的发展变化。
总而言之,带头大哥平均分是个“好”的评价参数。
三、平均分的好帮手——“三率”
既然是老大,除了前文提到的难度、得分率、均分达成率外必然还有些小弟弟帮着他摇旗呐喊助威,“三率”(优秀率、及格率、低分率,有些地方会对这些换一个称呼叫如“优分率”、“合格率”、“差生率”等类)就是好帮手。
在笔者参与进行考试分析中,优秀率、及格率、低分率通常和平均分一同出现,有的地方甚至出现高分率(特优率),算法基本大同小异。例如:不低于某个特定的分数(例如满分值的80%)的为优秀(高分);多数地区是不低于满分值60%的定为及格;低于某个特定值(例如满分值的20%)为低分率。
这些指标可以看到明显地评价功能有限,因为是硬性固定数字(例如满分100分,固定了60分及以上为及格,为毛不是59分、61分或者按98%的人数比率?),但有考试的选拔性。谁都希望学生分数越接近满分越好,但是这只是一种美好的愿望与现实中存在一定的差距。
首先,凭什么达到满分值的60%就是及格,低于满分20%就一定是差生?前面说过考试整体成绩与命题、考试性质、评卷等有关,为何不把大多数人都定为及格(合格)呢(尽管正规考试之前要先确定双向明细表,既然是人命的题预估难度难免和实测难度有差异?)笔者清楚地記得高中某次考试某科目(百分制,不知道是哪路神仙命题的)全年级1000多人,只有2人超过60分,那么是否意味着绝大多数同学都属于不及格(合格)的废品呢,学校岂不是成了“废品收购站”?
笔者参与分析某市2018年1月某年级期末调考某学科(满分120分)成绩“一分三率”情况统计表(见表二),我们可以看到1.9万多学生多人才1人达到优秀(84分及以上),平均分50.1,及格率超过50%(72分及以上),说明这学科命题可能总体较难,但是低分层(低于36分)的人也比较少(0.24%)说明整体差距不是太大。
其次,同一科目采用“三率”来纵向分析判断历次考试的变化趋势就更是不能做到,本次考试中某校优秀率30%与上次考试中20%优秀率无法比较,或许上次考试中本校成绩在全县更好一些呢。
因此三率一分——“优秀率、及格率、低分率”都作为一个成绩分析指标,作用较小,更多地是扮演着他们的带头大哥——平均分好帮手的角色。四项指标作为有机整体,对教学才有指导意义。提高了优秀率和及格率,降低低分率,平均分自然提高了。最理想的状态就是所有学生的成绩比较均匀整齐并尽可能的趋向于最大值。
四、成绩差异的刻度尺——标准差
既然考试成绩学生个体之间有差距,何如衡量呢?小华语文78分,小明语文81分有3分的差距,3分的分差说大也大说小也小。这还是两个个体之间的差距,还不是个体与整体的差异。1和19这组数的平均值是10,9和11这组数的平均值也是10,从平均值上看这两组数据上没有差异,说明不了实质问题,但明显觉得前一组的波动比后一组大。因此衡量个体与整体均值差异(波动、分化)程度的量自然就成为一个重要评价指标,它就是统计学上的标准差。
标准差(Standard Deviation)也叫标准偏差或实验标准差。为各数据偏离平均数的距离(离均差)的平均数,它是方差的开平方,用S来表示。标准差在本质上也是一种平均数,反映整体的离散程度,从考试分数上可看出考生间整体的分化程度。公式表示如下:
其中n为参考人数,x为平均分,xi为第i个人的分数(2≤i≤n)。
EXCEL和有些数据库系统中均有函数可直接算出得到其结果值。标准差是差异量数,反映了数据分布的离中趋势,反映样本的整体分化程度。一组成绩的标准差小,表明成绩很“整齐”,反之,学生成绩两极分化严重。要控制低分,是标准差减小;但要培优,标准差反而拉大了。 标准差在以下两种情况下,衡量和评价就有很大意义:
(1)在平均成绩相等的情况下,衡量整体成绩的分化程度,对全体学生的学习状况提供一个简洁依据;
(2)同类型学校或平行班级间,引入标准差指标,对学校、班级间同一科目的全面评价更准确和科学。
五、合理的呈现者——标准分
1996年起在广东省、海南省试验基础上,全国部分地区在高中陆续使用标准分代替原始分,有地区在中考也开始尝试使用标准分。后来高中实行新课程改革,考生高考时可以选择不同学科,选考X科的考生人数也不一样,全国大部分地区高考又改回原始分。
标准分数也叫Z分数,是一种具有相等单位的量数。它是原始分数与全样本的平均数之差再除以标准差所得的商,以标准差为单位度量原始分数离平均数的分数之上多少个标准差,或是在平均数之下多少个标准差。是一个抽象值,不受原始测量单位的影响,并可接受进一步统计处理。
标准分的计算:标准分是以标准差为单位来度量考分与参考点平均分之间的离差,即考分距平均分相差了多少个单位。其计算公式如下:
标准分Z=,(也叫Z分数),即个体原始分X与平均分之差然后再除以标准差S。
如果把平均分作为坐标原点,S作为单位长度,则可用数轴表示:
形象地表示出某同学在这个团体中的位置,即考分离平均分的位置,因此,标准分适合对考生进行排队比较。分数比较的前提是要选择共同的参照点(物)和标准,否则,比较就是不合理。标准分制度是据教育统计与测量学原理,按一定规则把原始分数转化为具有相同意义、相同单位和共同参照并能刻画考生分数在总体位置的分数制,与原始分相比标准分最直接的意义是它给出离平均数的距离。
标准分Z有如下性质:
(1)平均值为0,标准差为1;
(2)分数之间等距,可以作加减运算;
(3)原始分转换为标准分Z是线性转换,不改变原始分的分布形状和原来分数的位置次序(某考生单科原始分是第10名,转化为标准分Z后还是第10名)。
由于Z分数有正、负或零并且是小数,不直观,为避免小数、负数、零的出现,选择一个固定的平均值(基础分)和新的测定单位来对原标准分(Z分数)进行转换,这种转换也是线性的,进行转换后的分数叫T分:T=C+KZ。对单科时C可取50,K可取10—20,得到的T分(四舍五入取整),这样均值就是50,所有被测的分数在50分上下浮动。50分为一般成绩(均值),大于50分越多,则成绩越好,小于50分越多,则成绩越差,所有考生的T分的标准差为K。
特别地当C取5,K取2时,即T9=5+2Z,得到T分叫标准九分T9,是用1至9分来描述测验的分数,最高9分,最低1分。标准九分的好处是将测验的分数用一位数表示,应用成就性测试、心理测试等。其均值为5,标准差为2,除1和9的范围略大以外,其余均是以5为中心向两边各包含0.5个标准差的分数段。
2018年1月某市模拟高考理科(约2万考生)语文、数学、英语一分一段图(见图一,满分均为150分,纵坐标为人数,横坐标为分数,语文可以近似看作是中间层多,两边人较少的理想考试分数分布状态——正态分布,数学和英语就不能说明是正态分布了,尽管满分值都是150分,但各科的标准差、平均分是不一样的)。
回头再看本文开头的四个情景,在标准分下进均可比较和解释。由于命题等因素单科某次考试分数高与低,无法说明成绩好与坏问题,同一次考试不同学科分数不能比较,只有放在样本大环境中才有比较价值;历次考试同一科目也是同样。
根据教育统计学的原理,原始分转换成标准分的意义可以从下面的比较中反映出来:
(1)标准分能够反映考生成绩在全体考生成绩中的位置,而原始分则不能。某考生某科的原始成绩为86分,无法说明成绩究竟如何,因为这与试题的难度有关,与总体考生的分数有关。如某考生某科的标准分T为65,即Z分数为1.5,则查正态分布表对应的百分比为0.93319,于是我们知道,该考生的成绩超过了93.319%的考生的成绩,这就是分数解释的标准化。
(2)不同学科的原始分不可比,而不同学科的标准分可比。不同的學科,由于试题的难易程度不同,各学科的分数价值也就不同。例如某考生的语文原始成绩为83分,数学原始成绩为72分,从原始分看其语文成绩优于数学成绩。但如果这次考试全体考生的语文原始平均分为87分,而数学原始平均分为60分,则该考生的语文成绩处于全体考生的平均水平之下,而数学成绩处于全体考生的平均水平之上,即该生的数学成绩实质上优于语文成绩。从标准分的角度来衡量,其语文标准分小于50分,而数学标准分大于50分。标准分代表了原始分在整体原始分中的位置,因此是可比的。
(3)不同学科的原始分不可加,而不同学科的标准分之间具有可加性。既然不同学科的原始分不可比那也就不可加。多学科成绩,只有在各科成绩的平均值相同、标准差也相同下才能相加,否则是不科学的,可是要使各学科原始分的平均值相同以及标准差也相同似乎只有神仙命题才做得到。而各学科的标准分的平均值以及标准差都相同,因此,各科的标准分是可加的。
以某地一次高考模拟考试理科原始总分482的三个考生的成绩情况为例(见表三)。在各科T=50+10Z的转下,虽然三人原始总分都是482分,但明显王五的各科Z分之和、T分之和最高、李四次之,张三末之,因此王五成绩更好。原因是在原始分中各学科的1分的价值是不对等的,含金量是不同的,语文1分并不等于数学1分。这样的原始分相加后可比性就比较差,常会出现很大的误差。从T分数也可看出各学科的贡献,原始总分都是482分,李四的数学贡献较物理的大(数学在总体的位置靠前),张三的化学和生物的贡献一样大(这两科在总体的位置一样)。
标准分的应用价值很大,可以将原始分数近似地进行正态化。它可比较两组不同的数据。教学评价工作使用标准分主要是:
(1)发展性评价:教师和学生现在与以往历次成绩比较,即纵向比较;
(2)相对评价:对同一单位,不同的学科之间进行比较,即横向评价。
当然事物总是具有两面性的,标准分也不是金无足赤的“完人”,有也不足之处,主要体现在:
(1)标准分是以顺序或名次为基础的,与平均分相关,当若干考生的原始成绩修改后,要影响很多人的名次和标准分,几乎会影响到所有人的标准分;
(2)由于标准分是由原始分通过折算得来的,不直观,学校、考生、家长觉得稀里糊涂,看不懂。例如考生对成绩有疑虑要复核分数,因卷面分是原始分,公布分数又是标准分,二者从数值上无法做到一目了然;
(3)对考试后的估分影响大,如果填报志愿在考试后、公布分数前将受到极大影响,考后考生要对自己进行估分(只能估算原始分)但由于标准分是在所有考生的分数下参照给分,所以科目估80分在标准分里到底是多少分,无法事先知道。
顺便提一下,标准总分不是各科标准分的加权平均值。是将各科标准分进行加权相加,得到一个加权总和值(简称加权值),然后再将这个加权值转换为标准分,所得值即为标准总分(相当于对原始成绩进行两次转换,有些地区标准总分是按T=500+100Z换算)。
作者简介:任威力,武汉颂大教育科技股份有限公司。
〔情景一〕七年级五班班主任王老师给小明的爸爸发微信:“……语文78分,数学86分……”,给小华的妈妈发微信“……语文81分,数学75分……”;因此小华的语文比小明好,小明的数学比小华好;
〔情景二〕王老师经过核算、统计,得到七年级五班语文平均分为76.8分,数学71.6分,因此王老师隐约觉得本班语文整体成绩比数学整体成绩好;
〔情景三〕随后该校教务处公布了本次七年级全校各科平均分“……语文77.1分,数学62.2分……”,虽然此七年级五班语文平均分比数学平均分高,但语文平均分比全校低而数学高于全校平均分;
〔情景四〕小明的爸爸经过和2017年11月的期中考试对比,发现小明的语文期中考试76分,认为期末考试进步了2分;数学期中考试91分,认为期末考试退步了5分,很担心小明的数学学习情况。王老师通过这两次考试在班上名次的对比发现小明的語文期末考试虽然从分数上看进步了2分但班级名次却比期中考试退了3个,数学期中考试91分班级名次第21名,期末考试虽然86分但班级名次第9名,实际上是进步了。
一、成绩分析的基石——原始分
“考考考老师的法宝,分分分学生的命根”等有关调侃考试及成绩的段子在网上层出不穷。情景中涉及的考试分数、平均分、名次等可能是考试后广大教师、家长、学生碰到最关心、最现实、最直接的问题。
不可否认,考试是检验教育教学成果的重要手段,用于检测教师教学是否达到教学目标以及达到目标程度、测试学生学习水平的重要手段之一,常用随堂试、阶段试、综合多科目等调研测验等来进行分析评价。我们通常说的考试分数是指考试的原始分数,也就是通过一定的评分标准和尺度对考生答题情况进行最直接评判得到的分数。
依“凡物之存在必有其数,凡有数之物均可量”,分析统计的来源和依据就是考试分数,对原始分数进行统计分析与加工,评价学生学习相对水平,衡量教师教学质量并引导下一阶段的教与学,以促进整体教学健康、有序、综合发展。根据有关教育测量、统计、评价理论和模型,全面而科学地进行考试统计分析的并提供可量化的指标,是考试成绩统计分析中最常见的工作。
考试原始成绩(分数)的高低,固然与学生个体的学习程度有直接关系,但就整体而言,成绩与命题难度、命题人习惯、考试性质、考试范围、考试环境、评卷等有很大关系。一般而言考试性质来说选拔性考试(如高考),由于有上一级学校选拔人才的综合性考试,需要有一定的“坡度”和区分度将将不同层次学习水平的人才挑选出来,命题要比平时考试要难些;合格性考试(如学业水平考试、毕业考试等)要让大多数人能合格(毕业)因此命题难度可能相对简单些,不能太难;平时的测验性考试(月考、期中考、期末考等)既要兼顾毕业因素又要考虑选拔性功能等命题难度会折中综合考虑难度相对适中。
无论何种考试,都是为了对教学的总结、分析、评价、诊断,原始分数永远是这些工作的基础和依据,所有分析加工数据来源于最原始的分数,是富丽堂皇的分析、评价、诊断大厦的奠基石,离开了原始分这块基石和第一手资料,任何分析、评价都是无法让人信服的,成为无源之水无本之木。
二、成绩中的老大——平均分
考试成绩的平均分几乎是每次考试不可回避的指标,是一个最普遍、非常重要、最易于被社会接受的一个量化指标。是所有考生原始成绩的总和除以考生人数,也就是把学生的考试成绩作为观测对象计算他们的算术平均值,也叫均分或人均分。平均分通俗易懂,在EXECL或一些数据库系统中均有函数可以计算得到。平均分是很实用的评价参数,因为简明易懂、反应灵敏、较少受抽样样本变动影响等,反映成绩数据的总体集中趋势,是对成绩数据的最佳估计值,最具代表性的集中量数。
但是和统计学的一般原理一样,凡涉及算术平均数的问题很容易受极端值的干扰,一个典型的例子就是有关部门公布人均收入时被广大网友戏称严重拖后腿的“被平均”,把一个身价亿万的富翁和几个身无分文的人一起计算,平均计算为身价“千亿富翁”一样。
因此平均分有时需要和中数、众数等指标放结合起来分析评价才更有说服力和权威性。
所谓中数就是成绩按照从大到小或从小到大排序,位于正中间的那个数,也就是成绩高于中位数的人数和成绩低于中位数的人数各占50%,也叫中位数。如果总人数N为奇数,那么第(N+1)/2人的分数即为中数;如果总人数N为偶数,那么第N/2和第N/2+1人的分数的算术平均值为中数。
所谓众数就是一组数中出现次数最多的数值,既要统计这个数值又要统计这个值出现的次数。
中位数仅与数据排列顺序有关,不易受极端值影响,中位数可能出现在所给的这组数中,也可能不在这组数中(原因是第N/2和第N/2+1人的分数的算术平均值可能不在这组数中),当一组数据个别数据变动较大时,可用中位数描述这组数据的趋势,并且计算量也较小。
众数是一组数据中某一个值出现次数最多时,大家往往最关心的,不受极大值或极小值的影响,这是众数的最大优势。缺点是可能有多个众数(出现次数大致相当)但次数都比较小时可靠性较小,局限性大,当样本所有值出现次数相同时称为没有众数。
例如10名员工,年收入从小到大排序分别是(单位:万元):3,4,4,5,5,6,6,6,10,18,通过计算可以得到这10人的平均数(收入)为:,6.7不是这10个数据中任何一个因此是个“虚数”;中位数是第5位(此时是5)和第6位(此时是6)的算术平均值5.5,5.5也不是这10个数据中的任何一个,同样是个“虚数”;众数是6(出现的次数最多为3次)。 假如年收入18万的员工是个热衷福利事业的彩票迷(赌徒),将18万都拿去买彩票,结果运气超级不错,中1000万的双色球大奖,这10人的平均数(收入)将是:,显然104.9更不是这10个数据中的一个,也是“虚数”;中位数和众数将还是保持不变,分别还是将还是5.5和6,因此中位数和众数不易受个别极端值的影响。此时统计部门会说人均年收入破百万,成为名副其实的百万富翁,达到近105万元,是不是多数人拖了后腿收入“被平均”呢?
平均数、中位数、众数都是描述一组数据集中趋势的量,都有单位;
平均数反映一组数据的平均水平,与这组数据中每个数都有直接的关系,因此最重要,应用也最广;
众数与各组数据出现的频数(次数)有关,不受个别数据的影响,代表大多数水平有时是人们真正最为关心的问题;
中位数不受个别偏大值和偏小值的影响。
有老大哥——平均分,可以得到与此有关的指标例如难度(得分率)、均分达成率等,难度就是全样本平均分除以相应满分(注意:是全样本而不是部分抽样数据),得分率是样本平均分除以相应满分,有人说难度就是得分率,这是不完全正确的,因为难度是对于全样本统计的(例如某地级市的中考全体考生,不能抽取某个学校、某个班计算难度),得分率可能是全样本的数据(此时与难度一样)也可能从中抽样的某个班级、学校或区县的数据。均分达成率是样本中达到或超过总体样本平均成绩数量的百分比率,就是本单位(如学校)高于或等于整体(如全市)平均分的人数占本单位人数的百分比。
平均分(得分率)与均分达成率成正方向“相关性”,即样本平均分大,均分达成率就高,因此,均分达成率仅作参考指标。在平均分的基础上,得分率容易理解,得分率的作用是不同总分学科的比较。均分达成率避免采用简单比较均分距值(全样本平均分减去抽样(某校、某班)平均分)的方式中成绩数据中极值的影响,做到比较全面、客观、公正。尤其有利于纵、横比较,即同一次考试中,不同学科的比较和不同考试中同一学科的发展变化。
总而言之,带头大哥平均分是个“好”的评价参数。
三、平均分的好帮手——“三率”
既然是老大,除了前文提到的难度、得分率、均分达成率外必然还有些小弟弟帮着他摇旗呐喊助威,“三率”(优秀率、及格率、低分率,有些地方会对这些换一个称呼叫如“优分率”、“合格率”、“差生率”等类)就是好帮手。
在笔者参与进行考试分析中,优秀率、及格率、低分率通常和平均分一同出现,有的地方甚至出现高分率(特优率),算法基本大同小异。例如:不低于某个特定的分数(例如满分值的80%)的为优秀(高分);多数地区是不低于满分值60%的定为及格;低于某个特定值(例如满分值的20%)为低分率。
这些指标可以看到明显地评价功能有限,因为是硬性固定数字(例如满分100分,固定了60分及以上为及格,为毛不是59分、61分或者按98%的人数比率?),但有考试的选拔性。谁都希望学生分数越接近满分越好,但是这只是一种美好的愿望与现实中存在一定的差距。
首先,凭什么达到满分值的60%就是及格,低于满分20%就一定是差生?前面说过考试整体成绩与命题、考试性质、评卷等有关,为何不把大多数人都定为及格(合格)呢(尽管正规考试之前要先确定双向明细表,既然是人命的题预估难度难免和实测难度有差异?)笔者清楚地記得高中某次考试某科目(百分制,不知道是哪路神仙命题的)全年级1000多人,只有2人超过60分,那么是否意味着绝大多数同学都属于不及格(合格)的废品呢,学校岂不是成了“废品收购站”?
笔者参与分析某市2018年1月某年级期末调考某学科(满分120分)成绩“一分三率”情况统计表(见表二),我们可以看到1.9万多学生多人才1人达到优秀(84分及以上),平均分50.1,及格率超过50%(72分及以上),说明这学科命题可能总体较难,但是低分层(低于36分)的人也比较少(0.24%)说明整体差距不是太大。
其次,同一科目采用“三率”来纵向分析判断历次考试的变化趋势就更是不能做到,本次考试中某校优秀率30%与上次考试中20%优秀率无法比较,或许上次考试中本校成绩在全县更好一些呢。
因此三率一分——“优秀率、及格率、低分率”都作为一个成绩分析指标,作用较小,更多地是扮演着他们的带头大哥——平均分好帮手的角色。四项指标作为有机整体,对教学才有指导意义。提高了优秀率和及格率,降低低分率,平均分自然提高了。最理想的状态就是所有学生的成绩比较均匀整齐并尽可能的趋向于最大值。
四、成绩差异的刻度尺——标准差
既然考试成绩学生个体之间有差距,何如衡量呢?小华语文78分,小明语文81分有3分的差距,3分的分差说大也大说小也小。这还是两个个体之间的差距,还不是个体与整体的差异。1和19这组数的平均值是10,9和11这组数的平均值也是10,从平均值上看这两组数据上没有差异,说明不了实质问题,但明显觉得前一组的波动比后一组大。因此衡量个体与整体均值差异(波动、分化)程度的量自然就成为一个重要评价指标,它就是统计学上的标准差。
标准差(Standard Deviation)也叫标准偏差或实验标准差。为各数据偏离平均数的距离(离均差)的平均数,它是方差的开平方,用S来表示。标准差在本质上也是一种平均数,反映整体的离散程度,从考试分数上可看出考生间整体的分化程度。公式表示如下:
其中n为参考人数,x为平均分,xi为第i个人的分数(2≤i≤n)。
EXCEL和有些数据库系统中均有函数可直接算出得到其结果值。标准差是差异量数,反映了数据分布的离中趋势,反映样本的整体分化程度。一组成绩的标准差小,表明成绩很“整齐”,反之,学生成绩两极分化严重。要控制低分,是标准差减小;但要培优,标准差反而拉大了。 标准差在以下两种情况下,衡量和评价就有很大意义:
(1)在平均成绩相等的情况下,衡量整体成绩的分化程度,对全体学生的学习状况提供一个简洁依据;
(2)同类型学校或平行班级间,引入标准差指标,对学校、班级间同一科目的全面评价更准确和科学。
五、合理的呈现者——标准分
1996年起在广东省、海南省试验基础上,全国部分地区在高中陆续使用标准分代替原始分,有地区在中考也开始尝试使用标准分。后来高中实行新课程改革,考生高考时可以选择不同学科,选考X科的考生人数也不一样,全国大部分地区高考又改回原始分。
标准分数也叫Z分数,是一种具有相等单位的量数。它是原始分数与全样本的平均数之差再除以标准差所得的商,以标准差为单位度量原始分数离平均数的分数之上多少个标准差,或是在平均数之下多少个标准差。是一个抽象值,不受原始测量单位的影响,并可接受进一步统计处理。
标准分的计算:标准分是以标准差为单位来度量考分与参考点平均分之间的离差,即考分距平均分相差了多少个单位。其计算公式如下:
标准分Z=,(也叫Z分数),即个体原始分X与平均分之差然后再除以标准差S。
如果把平均分作为坐标原点,S作为单位长度,则可用数轴表示:
形象地表示出某同学在这个团体中的位置,即考分离平均分的位置,因此,标准分适合对考生进行排队比较。分数比较的前提是要选择共同的参照点(物)和标准,否则,比较就是不合理。标准分制度是据教育统计与测量学原理,按一定规则把原始分数转化为具有相同意义、相同单位和共同参照并能刻画考生分数在总体位置的分数制,与原始分相比标准分最直接的意义是它给出离平均数的距离。
标准分Z有如下性质:
(1)平均值为0,标准差为1;
(2)分数之间等距,可以作加减运算;
(3)原始分转换为标准分Z是线性转换,不改变原始分的分布形状和原来分数的位置次序(某考生单科原始分是第10名,转化为标准分Z后还是第10名)。
由于Z分数有正、负或零并且是小数,不直观,为避免小数、负数、零的出现,选择一个固定的平均值(基础分)和新的测定单位来对原标准分(Z分数)进行转换,这种转换也是线性的,进行转换后的分数叫T分:T=C+KZ。对单科时C可取50,K可取10—20,得到的T分(四舍五入取整),这样均值就是50,所有被测的分数在50分上下浮动。50分为一般成绩(均值),大于50分越多,则成绩越好,小于50分越多,则成绩越差,所有考生的T分的标准差为K。
特别地当C取5,K取2时,即T9=5+2Z,得到T分叫标准九分T9,是用1至9分来描述测验的分数,最高9分,最低1分。标准九分的好处是将测验的分数用一位数表示,应用成就性测试、心理测试等。其均值为5,标准差为2,除1和9的范围略大以外,其余均是以5为中心向两边各包含0.5个标准差的分数段。
2018年1月某市模拟高考理科(约2万考生)语文、数学、英语一分一段图(见图一,满分均为150分,纵坐标为人数,横坐标为分数,语文可以近似看作是中间层多,两边人较少的理想考试分数分布状态——正态分布,数学和英语就不能说明是正态分布了,尽管满分值都是150分,但各科的标准差、平均分是不一样的)。
回头再看本文开头的四个情景,在标准分下进均可比较和解释。由于命题等因素单科某次考试分数高与低,无法说明成绩好与坏问题,同一次考试不同学科分数不能比较,只有放在样本大环境中才有比较价值;历次考试同一科目也是同样。
根据教育统计学的原理,原始分转换成标准分的意义可以从下面的比较中反映出来:
(1)标准分能够反映考生成绩在全体考生成绩中的位置,而原始分则不能。某考生某科的原始成绩为86分,无法说明成绩究竟如何,因为这与试题的难度有关,与总体考生的分数有关。如某考生某科的标准分T为65,即Z分数为1.5,则查正态分布表对应的百分比为0.93319,于是我们知道,该考生的成绩超过了93.319%的考生的成绩,这就是分数解释的标准化。
(2)不同学科的原始分不可比,而不同学科的标准分可比。不同的學科,由于试题的难易程度不同,各学科的分数价值也就不同。例如某考生的语文原始成绩为83分,数学原始成绩为72分,从原始分看其语文成绩优于数学成绩。但如果这次考试全体考生的语文原始平均分为87分,而数学原始平均分为60分,则该考生的语文成绩处于全体考生的平均水平之下,而数学成绩处于全体考生的平均水平之上,即该生的数学成绩实质上优于语文成绩。从标准分的角度来衡量,其语文标准分小于50分,而数学标准分大于50分。标准分代表了原始分在整体原始分中的位置,因此是可比的。
(3)不同学科的原始分不可加,而不同学科的标准分之间具有可加性。既然不同学科的原始分不可比那也就不可加。多学科成绩,只有在各科成绩的平均值相同、标准差也相同下才能相加,否则是不科学的,可是要使各学科原始分的平均值相同以及标准差也相同似乎只有神仙命题才做得到。而各学科的标准分的平均值以及标准差都相同,因此,各科的标准分是可加的。
以某地一次高考模拟考试理科原始总分482的三个考生的成绩情况为例(见表三)。在各科T=50+10Z的转下,虽然三人原始总分都是482分,但明显王五的各科Z分之和、T分之和最高、李四次之,张三末之,因此王五成绩更好。原因是在原始分中各学科的1分的价值是不对等的,含金量是不同的,语文1分并不等于数学1分。这样的原始分相加后可比性就比较差,常会出现很大的误差。从T分数也可看出各学科的贡献,原始总分都是482分,李四的数学贡献较物理的大(数学在总体的位置靠前),张三的化学和生物的贡献一样大(这两科在总体的位置一样)。
标准分的应用价值很大,可以将原始分数近似地进行正态化。它可比较两组不同的数据。教学评价工作使用标准分主要是:
(1)发展性评价:教师和学生现在与以往历次成绩比较,即纵向比较;
(2)相对评价:对同一单位,不同的学科之间进行比较,即横向评价。
当然事物总是具有两面性的,标准分也不是金无足赤的“完人”,有也不足之处,主要体现在:
(1)标准分是以顺序或名次为基础的,与平均分相关,当若干考生的原始成绩修改后,要影响很多人的名次和标准分,几乎会影响到所有人的标准分;
(2)由于标准分是由原始分通过折算得来的,不直观,学校、考生、家长觉得稀里糊涂,看不懂。例如考生对成绩有疑虑要复核分数,因卷面分是原始分,公布分数又是标准分,二者从数值上无法做到一目了然;
(3)对考试后的估分影响大,如果填报志愿在考试后、公布分数前将受到极大影响,考后考生要对自己进行估分(只能估算原始分)但由于标准分是在所有考生的分数下参照给分,所以科目估80分在标准分里到底是多少分,无法事先知道。
顺便提一下,标准总分不是各科标准分的加权平均值。是将各科标准分进行加权相加,得到一个加权总和值(简称加权值),然后再将这个加权值转换为标准分,所得值即为标准总分(相当于对原始成绩进行两次转换,有些地区标准总分是按T=500+100Z换算)。
作者简介:任威力,武汉颂大教育科技股份有限公司。