论文部分内容阅读
摘 要:在语言测试中,评分信度指评分员对考生能力作出主观评价的一致性程度,可分为评判内信度和评判间信度;相关性计算是衡量评分信度的常用方法;影响英语作文评分信度的因素众多,统一评分标准及样卷,培训评分员等措施可提高作文评分信度。
关键词:评分信度 影响因素 提高措施
中图分类号:G642.3 文献标识码:A文章编号:1673-1875(2009)05-028-01
一、评分信度的概念及常用计算方法
效度(validity)与信度(reliability)是现代语言测试的两个核心要素。简言之,效度指一个测验能测出预定要测量的事物的程度;信度指一个测试的测量结果在多大程度上具有一致性, 如果一个考试在不同的情况下或对不同的人进行都得出同样的结果,那么就说这个考试是可靠的[1]。评分信度是指评分员对考生能力作出主观评价的一致性程度,特别是在评判口语与写作测试时,因为评分员的主观因素致使评分不一致的现象时有发生,可从以下两个方面分析:评判内信度(intra-rater reliability)和评判间信度(inter-rater reliability)。评判内信度是一个评分员两次或更多次对考生的能力所做的主观评定的一致性程度,例如,如果某一评分员在某一时间内对30份作文成绩进行了评分,以后的某个时间内对这30份作文再次进行评分,如果两次评分一致性较高,评分信度就较高。评判间信度是指不同评分员对考生的能力各自作出主观性评价的一致性程度,如果几个评分员使用同一测量语言水平各方面的等级量表来对考生评级,而名次高低大致相同,则该等级量表就可以认为具有高度的评判员间信度。
基于真分数理论的信度计算方法也适合于评分信度的计算[2],该理论认为:抽象的语言能力是无法精确得知的,只能根据考生的测试分数(observed score)即在某项语言测试中得到的成绩进行估测, 这个测试分数包括真分数(true score)和误差分数(error score)两部分, 真分数归因于考生的真实语言能力,误差分数(error score)归因于真实语言能力之外的其它因素。假如某些考生参加两个平行测试(parallel tests), 即设计衡量同样的技能或者能力的同一测试的两种形式,采用同样的测试方法,并且有同样的长度和难度,分别得到测试分数1和测试分数2,测试分数1包括真分数1和真分数1;测试分数2包括真分数1和误差分数2。对同一考生而言,归因于真实语言能力的真分数1和真分数2应该相等,而归因于真实语言能力之外的其它因素、随机的误差分数1和误差分数2的存在,使测试分数1和测试分数2不可能完全一致,在此情况下,误差分数1和误差分数2的值越小,测试分数1和测试分数2就越接近,越相关,反之,测试分数1和测试分数2越越接近,越相关,说明误差分数1和误差分数2的值越小,测试分数就越能反映真分数,测试的信度就越高,因此,平行测试的信度可以用两个测试分数的相关性表示。在衡量评分信度时,可以将评分员评定分数看做平行测试中的测试分数,也由反映考生某项语言能力的真实分数和因为评分员主观原因造成的误评分数组成,同样的推导过程可以得出:评分信度也可以用评分员评定的分数的相关性表示,例如,评分员甲和评分员乙对相同的30篇作文各自评分,两位评分员所评分数的相关性是0.80或者是更高,就表示评分信度较高。
二、影响英语作文评分信度的因素分析
任何有影响的大范围考试都必须包括产生性运用试题,因为这种试题有极好的反拨效应。在所有各种试题当
中,它们是唯一能带给教学纯粹正面的、最全面的反拨效应的试题,因而也是任何其他试题所不能取代的, 写作作为一种优良的主观题型,更是出现在几乎所有的现代语言测试中[3]。由于受到阅卷人的生理、心理稳定性、语言能力和水平等不自觉因素的影响,对应考者的书面表达能力的判断与测量往往过于主观,从而导致评分出现偏差,使写作测试分数的信度大大地降低。从实践中看,主要有以下几种情形:
对同一评分员而言,评判作文时的顺序可能影响评分信度,某一评分员在某一时间内对30分作文进行评分,在刚开始评判前几分作文时并没有太在意语法错误,而只是注重作文的内容与连贯方面,而在继续评阅下面的作文时,发现语法错误非常严重,此时评分员在无意识中会更多的把语法错误作为评分的依据,这样,排在前几份的作文即使语法错误与排在后面的作文一样严重,但得到的分数可能更高。有两个或两个评分员时情况更加复杂,例如分别有评分员甲、评分员乙给同样30篇作文打分,得到的结果可能大不相同,评分员甲可能只是依据语言质量评分,而评分员乙综合依据语言质量、内容、衔接与连贯各方面给分,即使要求两位评分员就同一项指标与语言质量评分,不一致的现象也可能存在,同样一篇作文可能被评分员甲判为9分,而被评分员乙判为5分。即使在统一评分标准的情况下,但由于评分标准本身的设计不够科学,也能使评分的信度降低。此外,目前英语教学实际中的一些客观因素使教师在评定作文时很难做到高信度,在课时量大、需要评分的作文份数多,而又全部依赖教师进行评定,这种情况下,评判教师往往根据自己的主观感觉给作文评分,甚至只是用粗略的方法评判学生作文,例如用A、B、C表示不同等级的方式评判作文,评分信度大为降低,学生很难对自己的写作水平有正确认识。
三、提高作文评分信度的措施
着眼于以上因素,提高英语作文的评分信度必须在选取适当评分方法的基础上优化评分标准及评分量表,规范评分员的评分程序及其行为,加大对评分员的培训,将可能影响阅卷信度的评分员主观因素降到最低。目前英语作文的评分主要由整体评分(holistic scoring)和分项评分(analytic scoring)两种形式,整体评分是将作文作为一个整体而不是几个独立的部分来评定,分项评分是指把参加者在写作任务中的表现分解为不同特征,给每一特征不同的权重值,然后再给每种特征值以分值,写作任务中常用的分解特征包括:内容、组织、连贯、词汇、语法、拼写等,目前的大型英语考试中多采取折中的做法[4]。无论是哪种评分方法,要取得良好的评分信度,都必须建立客观、合理的评分标准及评分量表,并尽量使评分员在适用评分标准时彼此一致,例如在四六级英语作文评分中,将作文分为5个档次,分别为2分,5分,8分,11分,14分,每个档都有分别从内容,语言等方面的描述及样卷,要求评分员根据阅卷标准,对照样卷进行评分,若认为所阅文章与某一分数(如8分)样卷相似,即定位该分数(8分),若认为所阅文章优于或劣于该样卷,则可加1分(9分)或减1分(7分),评分员评分之前要经过严格培训,尽量把相同的评分标准,在不同的时间内公正地应用到对不同作文的评估中。研究发现,四六级作文评分方式的信度较高,获得社会的一致认可,对学校的学期考试具有借鉴作用。
随着语篇语言学有关的检索(concordancing)、语料库语言学、计算语言学的进展,出现了机器参与阅卷的新技术,机器参与阅卷与以往的人工评估手段相比具有明显优势,例如常用的写作检查系统RightWriter,能兼容多种英文文字处理系统,可在极短的时间内从以英语为母语的人所关心的十个方面共97条标准来分析评价一篇文章,并能提供详尽的分析报告和数据,这些工作是评卷人所无法应付的[5]。也可以采取计算机和人工相结合的方法进行,例如对作文的语言质量可以通过适当软件进行分析,例如通过计算机的相关软件作文的语言质量的相关指标,然后在此基础上人工评定作文的篇章结构和内容方面,通过多个评分员共同打分来避免单人打分所带来的误差[6]。总之,只有在最大程度提高作文的评分信度,才能让学生对自己的写作水平有正确认识,进而提高写作水平。
参考文献:
[1]Brown,H.D.Principles of Language Learning and Teaching[M].Beijing:Foreign Language Learning and Research Press,2002
[2]Bachman,L.F.Fundamental considerations in language testing[M].Oxford and New York:Oxford University Press,1990,
[3]李筱菊.语言测试科学与艺术[M].湖南教育出版社,1997
[4]潘玮.改进英语写作测试评分方法的研究[J].Sino-US English Teaching,2004,1(7).
[5]温晋方.英语写作常模测试的高信度评估体系[J].广州大学学报(社会科学版)2003,2:84-89.
[6]李志雪.如何更加客观合理地给学生作文评分[J].Sino-US English Teaching,2004,1(11).
关键词:评分信度 影响因素 提高措施
中图分类号:G642.3 文献标识码:A文章编号:1673-1875(2009)05-028-01
一、评分信度的概念及常用计算方法
效度(validity)与信度(reliability)是现代语言测试的两个核心要素。简言之,效度指一个测验能测出预定要测量的事物的程度;信度指一个测试的测量结果在多大程度上具有一致性, 如果一个考试在不同的情况下或对不同的人进行都得出同样的结果,那么就说这个考试是可靠的[1]。评分信度是指评分员对考生能力作出主观评价的一致性程度,特别是在评判口语与写作测试时,因为评分员的主观因素致使评分不一致的现象时有发生,可从以下两个方面分析:评判内信度(intra-rater reliability)和评判间信度(inter-rater reliability)。评判内信度是一个评分员两次或更多次对考生的能力所做的主观评定的一致性程度,例如,如果某一评分员在某一时间内对30份作文成绩进行了评分,以后的某个时间内对这30份作文再次进行评分,如果两次评分一致性较高,评分信度就较高。评判间信度是指不同评分员对考生的能力各自作出主观性评价的一致性程度,如果几个评分员使用同一测量语言水平各方面的等级量表来对考生评级,而名次高低大致相同,则该等级量表就可以认为具有高度的评判员间信度。
基于真分数理论的信度计算方法也适合于评分信度的计算[2],该理论认为:抽象的语言能力是无法精确得知的,只能根据考生的测试分数(observed score)即在某项语言测试中得到的成绩进行估测, 这个测试分数包括真分数(true score)和误差分数(error score)两部分, 真分数归因于考生的真实语言能力,误差分数(error score)归因于真实语言能力之外的其它因素。假如某些考生参加两个平行测试(parallel tests), 即设计衡量同样的技能或者能力的同一测试的两种形式,采用同样的测试方法,并且有同样的长度和难度,分别得到测试分数1和测试分数2,测试分数1包括真分数1和真分数1;测试分数2包括真分数1和误差分数2。对同一考生而言,归因于真实语言能力的真分数1和真分数2应该相等,而归因于真实语言能力之外的其它因素、随机的误差分数1和误差分数2的存在,使测试分数1和测试分数2不可能完全一致,在此情况下,误差分数1和误差分数2的值越小,测试分数1和测试分数2就越接近,越相关,反之,测试分数1和测试分数2越越接近,越相关,说明误差分数1和误差分数2的值越小,测试分数就越能反映真分数,测试的信度就越高,因此,平行测试的信度可以用两个测试分数的相关性表示。在衡量评分信度时,可以将评分员评定分数看做平行测试中的测试分数,也由反映考生某项语言能力的真实分数和因为评分员主观原因造成的误评分数组成,同样的推导过程可以得出:评分信度也可以用评分员评定的分数的相关性表示,例如,评分员甲和评分员乙对相同的30篇作文各自评分,两位评分员所评分数的相关性是0.80或者是更高,就表示评分信度较高。
二、影响英语作文评分信度的因素分析
任何有影响的大范围考试都必须包括产生性运用试题,因为这种试题有极好的反拨效应。在所有各种试题当
中,它们是唯一能带给教学纯粹正面的、最全面的反拨效应的试题,因而也是任何其他试题所不能取代的, 写作作为一种优良的主观题型,更是出现在几乎所有的现代语言测试中[3]。由于受到阅卷人的生理、心理稳定性、语言能力和水平等不自觉因素的影响,对应考者的书面表达能力的判断与测量往往过于主观,从而导致评分出现偏差,使写作测试分数的信度大大地降低。从实践中看,主要有以下几种情形:
对同一评分员而言,评判作文时的顺序可能影响评分信度,某一评分员在某一时间内对30分作文进行评分,在刚开始评判前几分作文时并没有太在意语法错误,而只是注重作文的内容与连贯方面,而在继续评阅下面的作文时,发现语法错误非常严重,此时评分员在无意识中会更多的把语法错误作为评分的依据,这样,排在前几份的作文即使语法错误与排在后面的作文一样严重,但得到的分数可能更高。有两个或两个评分员时情况更加复杂,例如分别有评分员甲、评分员乙给同样30篇作文打分,得到的结果可能大不相同,评分员甲可能只是依据语言质量评分,而评分员乙综合依据语言质量、内容、衔接与连贯各方面给分,即使要求两位评分员就同一项指标与语言质量评分,不一致的现象也可能存在,同样一篇作文可能被评分员甲判为9分,而被评分员乙判为5分。即使在统一评分标准的情况下,但由于评分标准本身的设计不够科学,也能使评分的信度降低。此外,目前英语教学实际中的一些客观因素使教师在评定作文时很难做到高信度,在课时量大、需要评分的作文份数多,而又全部依赖教师进行评定,这种情况下,评判教师往往根据自己的主观感觉给作文评分,甚至只是用粗略的方法评判学生作文,例如用A、B、C表示不同等级的方式评判作文,评分信度大为降低,学生很难对自己的写作水平有正确认识。
三、提高作文评分信度的措施
着眼于以上因素,提高英语作文的评分信度必须在选取适当评分方法的基础上优化评分标准及评分量表,规范评分员的评分程序及其行为,加大对评分员的培训,将可能影响阅卷信度的评分员主观因素降到最低。目前英语作文的评分主要由整体评分(holistic scoring)和分项评分(analytic scoring)两种形式,整体评分是将作文作为一个整体而不是几个独立的部分来评定,分项评分是指把参加者在写作任务中的表现分解为不同特征,给每一特征不同的权重值,然后再给每种特征值以分值,写作任务中常用的分解特征包括:内容、组织、连贯、词汇、语法、拼写等,目前的大型英语考试中多采取折中的做法[4]。无论是哪种评分方法,要取得良好的评分信度,都必须建立客观、合理的评分标准及评分量表,并尽量使评分员在适用评分标准时彼此一致,例如在四六级英语作文评分中,将作文分为5个档次,分别为2分,5分,8分,11分,14分,每个档都有分别从内容,语言等方面的描述及样卷,要求评分员根据阅卷标准,对照样卷进行评分,若认为所阅文章与某一分数(如8分)样卷相似,即定位该分数(8分),若认为所阅文章优于或劣于该样卷,则可加1分(9分)或减1分(7分),评分员评分之前要经过严格培训,尽量把相同的评分标准,在不同的时间内公正地应用到对不同作文的评估中。研究发现,四六级作文评分方式的信度较高,获得社会的一致认可,对学校的学期考试具有借鉴作用。
随着语篇语言学有关的检索(concordancing)、语料库语言学、计算语言学的进展,出现了机器参与阅卷的新技术,机器参与阅卷与以往的人工评估手段相比具有明显优势,例如常用的写作检查系统RightWriter,能兼容多种英文文字处理系统,可在极短的时间内从以英语为母语的人所关心的十个方面共97条标准来分析评价一篇文章,并能提供详尽的分析报告和数据,这些工作是评卷人所无法应付的[5]。也可以采取计算机和人工相结合的方法进行,例如对作文的语言质量可以通过适当软件进行分析,例如通过计算机的相关软件作文的语言质量的相关指标,然后在此基础上人工评定作文的篇章结构和内容方面,通过多个评分员共同打分来避免单人打分所带来的误差[6]。总之,只有在最大程度提高作文的评分信度,才能让学生对自己的写作水平有正确认识,进而提高写作水平。
参考文献:
[1]Brown,H.D.Principles of Language Learning and Teaching[M].Beijing:Foreign Language Learning and Research Press,2002
[2]Bachman,L.F.Fundamental considerations in language testing[M].Oxford and New York:Oxford University Press,1990,
[3]李筱菊.语言测试科学与艺术[M].湖南教育出版社,1997
[4]潘玮.改进英语写作测试评分方法的研究[J].Sino-US English Teaching,2004,1(7).
[5]温晋方.英语写作常模测试的高信度评估体系[J].广州大学学报(社会科学版)2003,2:84-89.
[6]李志雪.如何更加客观合理地给学生作文评分[J].Sino-US English Teaching,2004,1(11).