论文部分内容阅读
在高考等大规模考试中,作文评分往往会出现趋中倾向,而且在使用网上阅卷后这种倾向有增强的势头。趋中倾向是大规模作文评分存在误差的一种表现,是高考作文评分误差控制要解决的一个难题。一般认为,造成趋中倾向的原因是评卷员的专业素质不高,包括对评分标准掌握不准,只要提高评卷员的素质就能解决趋中倾向问题。本文认为,趋中倾向不是某几个评卷员造成的,主要是整个评卷员群体由于一些与专业素质无关的因素造成的。
一、什么是趋中倾向
“趋中倾向就是既不打高分,也不打低分,评出的分数高度集中在中部偏上的狭小区间内。”这里说的“趋中倾向”不同于一般考试学里的专业术语“集中趋势”,在一些研究文章中经常出现两者的混用现象。“集中趋势指标描述分布中代表平均值或最典型值的点。最常见的集中趋势指标是平均数、中数和众数。”相对于单篇文章多人评分会出现评分摆动幅度过大的现象,趋中倾向则是评卷员所评分数总体呈现评分摆动幅度过小的现象。趋中倾向在各省的选拔性考试作文阅卷中是普通存在的,从表1中的调查结果可见一斑。
在倪文锦先生的调查中,2004年之前的数据显示,使用传统手工作文阅卷产生的趋中倾向程度,2004年的数据显示使用网上阅卷产生的趋中倾向程度,两者比较,可见网上阅卷产生的趋中倾向明显比传统手工阅卷严重。
二、为什么说趋中倾向是评分误差的表现
趋中倾向的存在也是高考作文评分误差存在的一个明证。我们之所以作这样的判断,是基于教育心理与统计的研究结果作出的。根据大规模调查统计显示,人的身高、体重、脉搏、肺活量、智力均服从正态分布,学生的学习成绩就水平性考试结果而言,可以认为服从正态分布。正态分布亦称“常态分布”、“高斯分布”,是一种连续型随机变量的概率分布,是“随机变量及随机变量函数的一种重要的、应用最多的分布”,是一种应用极为广泛、极为重要的概率分布。正态曲线是一条钟形的数学曲线(见图1)。
正态分布中,有68%的数集中在平均数上下1个标准内,有99.73%的数集中在平均数上下3个标准差内,如果采用五等分法,则每等人数占总人数的相应百分比分别为7、24、38、24、7。高考是一种典型的大规模水平考试,其成绩应符合正态分布的要求,高考作文成绩作为一个分值较大、独立性较强的主观题,其成绩也应符合正态分布的要求。但据表l中的调查显示,中间档成绩考生所占比率数要远远大于正态分布中相同区间内所应占比率数。比如,在倪文锦先生2004年的调查中,根据正态分布规律,3档作为共5档中的中间档应占总人数38%,实际上却占了总人数的84%。人们经常说,高考作文拉不开分数,就是这种趋中倾向造成的。以上调查数据告诉我们,高考作文阅卷存在严重的集体性误差,不是个别评卷员的专业素质不高和把握评分标准不准确所能造成的,我们应从评卷员以外去寻找造成趋中倾向的原因。
三、造成趋中倾向的原因
1、评分监测机制的缺陷
(1)专家效标的缺失
专家效标由于其权威性,可以起到控制整体阅卷情况,以免出现整体偏差的作用,意义重大。但就我们所见,目前还没有关于大规模考试中或某一次高考作文改卷中什么样的平均分、标准差、分值分布最好之类的研究,真正的专家效标研究还未展开。在高考作文阅卷实践中,专家除了一般阅卷管理外,主要处理一些特殊试卷(0分卷、满分卷和评分误差较大的作文卷),在整体控制上主要是通过抽查监控的方法来实现。专家组的复查作用主要还是针对评卷员个体的,无法对整个评卷员的控制发挥作用,所以像有的专家说的,他感觉自己就像战场上医护人员能从火线上救下几个就救下几个了。我们认为,专家组的这种作用是有限的,专家组控制高考作文评分误差的作用应主要体现在整体控制上。现在的评卷研究和评卷实践似乎对专家组整体效标的作用不够重视。换言之,专家组在作文评卷实践中的作用还没有充分发挥出来。
当专家效标没有作为控制个体评卷员评分时,是什么在控制个体评卷员评分呢?是全体评卷员所评分擞及其相关效标,即以全体评卷员所评作文分数的平均分、标准差、评分曲线为效标。而趋中倾向恰恰是评卷员集体造成的误差的表现,如果以全体评卷员所评分数及其相关效标来规范个别评卷员的评分会迫使他(她)也朝着“中间”方向评分。打个比方,如果以不正常的标准来衡量正常,那么正常也就成了“不正常”,只有变得不正常才“正常”。据此,我们可以推测,趋中倾向程度在高考作文改卷的各天中是逐日增加的。
(2)评分淘汰机制的缺陷
在高考作文评分过程中,当两个评卷员对同一篇文章的评分差值超过一定数量时,就要交给第三个评卷员评。在最后得到的三个分数中,取最接近的两个分数求平均分即为该文的最后得分,这意味着三人中一个人的评分被淘汰了。这“一定数量”的评分差值叫误差控制阈值,有的省定为8分。那么,实践中哪些分数容易被淘汰呢?打高分或低分容易与别人的评分差距过大,会使自己所评的试卷成为无效卷。有个小组长的话透露出为什么高分和低分易被淘汰,他说:“你想给他高分,他反而得了低分;你想给他低分,他反而得了高分。”怎么理解呢?比如,你很欣赏一篇文章,给它打了58分,而第二个人打了46分,第三个人打了50分,那么按照现在的评分规则,你的评分成为无效分,该生的最后得分是(46 50)/2=48分;而如果你第一次打53分,那么该生的最后得分应是(53 50)/2=51.5分,比你给他打58分时多出3.5分;打低分的情况正好与之相反。现在的网上阅卷,无效卷数量是小组长们认为的衡量一个评卷员评分水平的一个重要指标,无效卷数量多被认为是评分标准没有掌握好,评分水平低。所以如果自己的评分被淘汰不仅意味着个人的意见得不到尊重,还会被认为是评分水平低,于是评分淘汰机制在实践中会迫使评卷员倾向于打保险分。打保险分就是既不敢给好作文打高分,也不敢给差作文打低分,一般在平均分上下(40~45)打分,是高考作文评分产生趋中倾向的原因之一。
2、高考作文评分标准的局限
常模参照测验和标准参照测验对区分学生差异的要求是不同的。前者要求最大限度地区分一个群体内学生的水平差异,当试卷难度(指通过率)在0.5时区分能力最好。后者只要求在某一个点或几个点(比如合格与不合格、合格与优秀之间的分界点)上要求有较大的区分能力,其他并不作要求。高考作为选拔考试是常模参照性质的,所以高考作文评分应体现常模参照测验的性质和特点。而实际上高考作文评分最后却体现出很强的一般标准参照测验评分的特点:优秀和不合格的少,合格的点了大部分,即大部分人的分数集中一个较窄的分数段内,呈趋中倾向。这和高考作文评分标准的局限性有密切的关系。 (1)高考作文评分标准性质上的局限
现在高考作文评分所使用的评分标准是描述式评定标准量表。这种量表“除常模参照评定外,凡标准参照评定,等级评定也好,分数评定也好,综合评定也好,分解评定也好,都需要这种量表来统一标准”。也就是说,现在我们使用的评分标准只适用于标准参照评分,与高考常模参照测验的性质是相违的。这个论断也得到了实践证明。首先是各省所定基准分体现的难度系数(一般是0.7)不符合常模参照评分的要求(难度系数0.5)。基准分是管理者预设的作文题最终的平均得分,现在高考作文的基准分一般是41、42分(满分60分)。如果将基准分所在等级作为评分的中间等级的话,那么必然导致各等级的给分范围不一样,比中间等级低之等级的给分范围会很大,反之则小,见表2。
可以说,基准分的确定决定了高考作文得分的分布不可能是标准正态的,往往会呈负偏态。可见,基准分的作用类似通常所说的合格分。其次,各省比较作文平均分高低,将基准分拔高,体现出管理者对评分标准的理解是标准参照性质的。现在各省市好像都有这种倾向:为了提高各自省的语文高考平均分以拥有或维护文化大省的名声,或为了让考生在被录取时分数显得“好看点”,或为了保护广大教师和学生学语文的信心,主观要求作文的平均分要高一点,所以把基准分定高点。特别是在试卷前半部分得分比较低的时候,这种要求就更强烈,要求提高的幅度就更大。有的省将基准分定为43、44分(表2),有的省甚至可能更高。我们知道,常模参照评分所得的分数是个相对分数,不反映学业水平的高下;标准参照评分所得的分数是个绝对分数,能反映学习者所达到的学业水平。各省比较高考作文平均分目的是比较各省的作文教学水平,就是把高考作文评分理解成标准参照评分。同时,基准分的拔高意味着比中间等级高的等级评分范围的缩小,而最高级别的分数评卷员往往不敢打,就更容易使分数集中在一个狭小的范围内。第三,来自一线中学的评卷员习惯于使用评分标准进行标准参照评分。中学平时的作文测试改卷一般采用标准参照进行评分,这样有利于发挥测试的诊断、激励和促进学生发展的功能。我国教师多年的打分习惯是60分(满分为100分)为及格分,那么作文的及格分就为36分(满分60分)。高考作文评卷员大部分是来自一线的高中教师,他们原来的作文评分习惯成了一种强大的心理因素,干扰高考作文评分标准的执行,使高考作文的分数36分以下的很少。现在各省高考作文分数大部分集中在40~50(满分60分)分这么个狭窄的范围内。
到这里我们会发现一个很有意思的现象:如果从标准参照评分的角度来看,使用描述式评定标准量表使分数集中在较小的范围内,但这还并不能说是“误差”——趋中倾向。而从常模参照评分的角度看就是误差——趋中倾向的表现。事实恰恰就是如此,我们按标准参照评分的规则来做事,却从常模参照评分的角度看所得的结果;或者反过来说,我们希望得到常模参照评分的分数分布,却按标准参照评分的规则来做事。
(2)高考作文评分样本卷的局限
描述式评定标准量表很抽象,容易造成理解的模糊性和不一致性。为了弥补不足,每年高考阅卷,专家组成员都会为每一个评分等级选几篇样卷。这种做法汲取了样本式参照量表的一些长处——具体、形象、直观,但并没有改变现有评分的标准参照性质。现在的高考作文评分样卷都是作文评卷专家组根据自身对评分标准的理解,在一定样本范围内选取各等级的典型样本,用的是绝对标准(指以课程标准中的目标为参照标准)。真正样本式参照量表要求专家组各自对一定数量的样本卷按水平排序,求得每篇平均排序成绩再排序,再根据正态分布规律选取各等级的样卷,用的是相对标准。用相对标准选出的每一等级的样卷,我们能知道它是占总数百分之几文章的代表,所以根据样卷来评分能在控制趋中倾向上发挥作用。而用绝对标准选出来的每一等级的样卷,应该说有一定的代表性、典型性,但它具体能代表多少份额,应该代表多少份额都是未知的,所以现在所用的高考作文评分样卷在控制趋中倾向上并没有起到作用。
四、小结
造成高考作文评分趋中倾向的原因或许还有:因为时间紧、任务重,为赶速度而打保险分;可能有的评卷员缺少责任心,随意打保险分,搞人机对抗等等,我们认为这些都不是根本的。根据所掌握的有限资料,我们认为高考作文评分的趋中倾向根本上是因为评分监测机制的缺陷和高考作文评分标准的局限造成的,这两点都是外在于评卷员个人的。进一步的研究,需要得到每年高考作文评分抽样数据才能进行。在此呼吁各省高考管理者,每年向全社会公布各年高考各题的得分抽样原始数据(可以隐去学校、学生姓名和地址等敏感信息),供研究者使用,以有利于推动我国考试研究的发展。
一、什么是趋中倾向
“趋中倾向就是既不打高分,也不打低分,评出的分数高度集中在中部偏上的狭小区间内。”这里说的“趋中倾向”不同于一般考试学里的专业术语“集中趋势”,在一些研究文章中经常出现两者的混用现象。“集中趋势指标描述分布中代表平均值或最典型值的点。最常见的集中趋势指标是平均数、中数和众数。”相对于单篇文章多人评分会出现评分摆动幅度过大的现象,趋中倾向则是评卷员所评分数总体呈现评分摆动幅度过小的现象。趋中倾向在各省的选拔性考试作文阅卷中是普通存在的,从表1中的调查结果可见一斑。
在倪文锦先生的调查中,2004年之前的数据显示,使用传统手工作文阅卷产生的趋中倾向程度,2004年的数据显示使用网上阅卷产生的趋中倾向程度,两者比较,可见网上阅卷产生的趋中倾向明显比传统手工阅卷严重。
二、为什么说趋中倾向是评分误差的表现
趋中倾向的存在也是高考作文评分误差存在的一个明证。我们之所以作这样的判断,是基于教育心理与统计的研究结果作出的。根据大规模调查统计显示,人的身高、体重、脉搏、肺活量、智力均服从正态分布,学生的学习成绩就水平性考试结果而言,可以认为服从正态分布。正态分布亦称“常态分布”、“高斯分布”,是一种连续型随机变量的概率分布,是“随机变量及随机变量函数的一种重要的、应用最多的分布”,是一种应用极为广泛、极为重要的概率分布。正态曲线是一条钟形的数学曲线(见图1)。
正态分布中,有68%的数集中在平均数上下1个标准内,有99.73%的数集中在平均数上下3个标准差内,如果采用五等分法,则每等人数占总人数的相应百分比分别为7、24、38、24、7。高考是一种典型的大规模水平考试,其成绩应符合正态分布的要求,高考作文成绩作为一个分值较大、独立性较强的主观题,其成绩也应符合正态分布的要求。但据表l中的调查显示,中间档成绩考生所占比率数要远远大于正态分布中相同区间内所应占比率数。比如,在倪文锦先生2004年的调查中,根据正态分布规律,3档作为共5档中的中间档应占总人数38%,实际上却占了总人数的84%。人们经常说,高考作文拉不开分数,就是这种趋中倾向造成的。以上调查数据告诉我们,高考作文阅卷存在严重的集体性误差,不是个别评卷员的专业素质不高和把握评分标准不准确所能造成的,我们应从评卷员以外去寻找造成趋中倾向的原因。
三、造成趋中倾向的原因
1、评分监测机制的缺陷
(1)专家效标的缺失
专家效标由于其权威性,可以起到控制整体阅卷情况,以免出现整体偏差的作用,意义重大。但就我们所见,目前还没有关于大规模考试中或某一次高考作文改卷中什么样的平均分、标准差、分值分布最好之类的研究,真正的专家效标研究还未展开。在高考作文阅卷实践中,专家除了一般阅卷管理外,主要处理一些特殊试卷(0分卷、满分卷和评分误差较大的作文卷),在整体控制上主要是通过抽查监控的方法来实现。专家组的复查作用主要还是针对评卷员个体的,无法对整个评卷员的控制发挥作用,所以像有的专家说的,他感觉自己就像战场上医护人员能从火线上救下几个就救下几个了。我们认为,专家组的这种作用是有限的,专家组控制高考作文评分误差的作用应主要体现在整体控制上。现在的评卷研究和评卷实践似乎对专家组整体效标的作用不够重视。换言之,专家组在作文评卷实践中的作用还没有充分发挥出来。
当专家效标没有作为控制个体评卷员评分时,是什么在控制个体评卷员评分呢?是全体评卷员所评分擞及其相关效标,即以全体评卷员所评作文分数的平均分、标准差、评分曲线为效标。而趋中倾向恰恰是评卷员集体造成的误差的表现,如果以全体评卷员所评分数及其相关效标来规范个别评卷员的评分会迫使他(她)也朝着“中间”方向评分。打个比方,如果以不正常的标准来衡量正常,那么正常也就成了“不正常”,只有变得不正常才“正常”。据此,我们可以推测,趋中倾向程度在高考作文改卷的各天中是逐日增加的。
(2)评分淘汰机制的缺陷
在高考作文评分过程中,当两个评卷员对同一篇文章的评分差值超过一定数量时,就要交给第三个评卷员评。在最后得到的三个分数中,取最接近的两个分数求平均分即为该文的最后得分,这意味着三人中一个人的评分被淘汰了。这“一定数量”的评分差值叫误差控制阈值,有的省定为8分。那么,实践中哪些分数容易被淘汰呢?打高分或低分容易与别人的评分差距过大,会使自己所评的试卷成为无效卷。有个小组长的话透露出为什么高分和低分易被淘汰,他说:“你想给他高分,他反而得了低分;你想给他低分,他反而得了高分。”怎么理解呢?比如,你很欣赏一篇文章,给它打了58分,而第二个人打了46分,第三个人打了50分,那么按照现在的评分规则,你的评分成为无效分,该生的最后得分是(46 50)/2=48分;而如果你第一次打53分,那么该生的最后得分应是(53 50)/2=51.5分,比你给他打58分时多出3.5分;打低分的情况正好与之相反。现在的网上阅卷,无效卷数量是小组长们认为的衡量一个评卷员评分水平的一个重要指标,无效卷数量多被认为是评分标准没有掌握好,评分水平低。所以如果自己的评分被淘汰不仅意味着个人的意见得不到尊重,还会被认为是评分水平低,于是评分淘汰机制在实践中会迫使评卷员倾向于打保险分。打保险分就是既不敢给好作文打高分,也不敢给差作文打低分,一般在平均分上下(40~45)打分,是高考作文评分产生趋中倾向的原因之一。
2、高考作文评分标准的局限
常模参照测验和标准参照测验对区分学生差异的要求是不同的。前者要求最大限度地区分一个群体内学生的水平差异,当试卷难度(指通过率)在0.5时区分能力最好。后者只要求在某一个点或几个点(比如合格与不合格、合格与优秀之间的分界点)上要求有较大的区分能力,其他并不作要求。高考作为选拔考试是常模参照性质的,所以高考作文评分应体现常模参照测验的性质和特点。而实际上高考作文评分最后却体现出很强的一般标准参照测验评分的特点:优秀和不合格的少,合格的点了大部分,即大部分人的分数集中一个较窄的分数段内,呈趋中倾向。这和高考作文评分标准的局限性有密切的关系。 (1)高考作文评分标准性质上的局限
现在高考作文评分所使用的评分标准是描述式评定标准量表。这种量表“除常模参照评定外,凡标准参照评定,等级评定也好,分数评定也好,综合评定也好,分解评定也好,都需要这种量表来统一标准”。也就是说,现在我们使用的评分标准只适用于标准参照评分,与高考常模参照测验的性质是相违的。这个论断也得到了实践证明。首先是各省所定基准分体现的难度系数(一般是0.7)不符合常模参照评分的要求(难度系数0.5)。基准分是管理者预设的作文题最终的平均得分,现在高考作文的基准分一般是41、42分(满分60分)。如果将基准分所在等级作为评分的中间等级的话,那么必然导致各等级的给分范围不一样,比中间等级低之等级的给分范围会很大,反之则小,见表2。
可以说,基准分的确定决定了高考作文得分的分布不可能是标准正态的,往往会呈负偏态。可见,基准分的作用类似通常所说的合格分。其次,各省比较作文平均分高低,将基准分拔高,体现出管理者对评分标准的理解是标准参照性质的。现在各省市好像都有这种倾向:为了提高各自省的语文高考平均分以拥有或维护文化大省的名声,或为了让考生在被录取时分数显得“好看点”,或为了保护广大教师和学生学语文的信心,主观要求作文的平均分要高一点,所以把基准分定高点。特别是在试卷前半部分得分比较低的时候,这种要求就更强烈,要求提高的幅度就更大。有的省将基准分定为43、44分(表2),有的省甚至可能更高。我们知道,常模参照评分所得的分数是个相对分数,不反映学业水平的高下;标准参照评分所得的分数是个绝对分数,能反映学习者所达到的学业水平。各省比较高考作文平均分目的是比较各省的作文教学水平,就是把高考作文评分理解成标准参照评分。同时,基准分的拔高意味着比中间等级高的等级评分范围的缩小,而最高级别的分数评卷员往往不敢打,就更容易使分数集中在一个狭小的范围内。第三,来自一线中学的评卷员习惯于使用评分标准进行标准参照评分。中学平时的作文测试改卷一般采用标准参照进行评分,这样有利于发挥测试的诊断、激励和促进学生发展的功能。我国教师多年的打分习惯是60分(满分为100分)为及格分,那么作文的及格分就为36分(满分60分)。高考作文评卷员大部分是来自一线的高中教师,他们原来的作文评分习惯成了一种强大的心理因素,干扰高考作文评分标准的执行,使高考作文的分数36分以下的很少。现在各省高考作文分数大部分集中在40~50(满分60分)分这么个狭窄的范围内。
到这里我们会发现一个很有意思的现象:如果从标准参照评分的角度来看,使用描述式评定标准量表使分数集中在较小的范围内,但这还并不能说是“误差”——趋中倾向。而从常模参照评分的角度看就是误差——趋中倾向的表现。事实恰恰就是如此,我们按标准参照评分的规则来做事,却从常模参照评分的角度看所得的结果;或者反过来说,我们希望得到常模参照评分的分数分布,却按标准参照评分的规则来做事。
(2)高考作文评分样本卷的局限
描述式评定标准量表很抽象,容易造成理解的模糊性和不一致性。为了弥补不足,每年高考阅卷,专家组成员都会为每一个评分等级选几篇样卷。这种做法汲取了样本式参照量表的一些长处——具体、形象、直观,但并没有改变现有评分的标准参照性质。现在的高考作文评分样卷都是作文评卷专家组根据自身对评分标准的理解,在一定样本范围内选取各等级的典型样本,用的是绝对标准(指以课程标准中的目标为参照标准)。真正样本式参照量表要求专家组各自对一定数量的样本卷按水平排序,求得每篇平均排序成绩再排序,再根据正态分布规律选取各等级的样卷,用的是相对标准。用相对标准选出的每一等级的样卷,我们能知道它是占总数百分之几文章的代表,所以根据样卷来评分能在控制趋中倾向上发挥作用。而用绝对标准选出来的每一等级的样卷,应该说有一定的代表性、典型性,但它具体能代表多少份额,应该代表多少份额都是未知的,所以现在所用的高考作文评分样卷在控制趋中倾向上并没有起到作用。
四、小结
造成高考作文评分趋中倾向的原因或许还有:因为时间紧、任务重,为赶速度而打保险分;可能有的评卷员缺少责任心,随意打保险分,搞人机对抗等等,我们认为这些都不是根本的。根据所掌握的有限资料,我们认为高考作文评分的趋中倾向根本上是因为评分监测机制的缺陷和高考作文评分标准的局限造成的,这两点都是外在于评卷员个人的。进一步的研究,需要得到每年高考作文评分抽样数据才能进行。在此呼吁各省高考管理者,每年向全社会公布各年高考各题的得分抽样原始数据(可以隐去学校、学生姓名和地址等敏感信息),供研究者使用,以有利于推动我国考试研究的发展。