论文部分内容阅读
摘要:本文主要阐述如何应用语言测量指标对作文评分员评分特征和倾向进行检验以发现不同评分员之间的异同及评分倾向。在我们对测量指标及作文评分的分析研究中发现,利用统计手段可以得出不同评分员之间的具体异同。结果显示所有评分员都注重的语言表现和特征有文本长度和被动时态的使用数量,而不同评分员之间也存在差异及不同的侧重点。这一研究通过对教师评分和指标测量结果进行统计、检验、分析,不仅有助于发现评分员之间的差异以及不同评分员的具体的评分倾向性,而且对于了解作文评分员,促进语言教学实践以及提高作文测试的可靠性都能提供方法上的参考。
关键词:作文评分 语言表写指标 评分倾向
1 前言
目前,英语写作作为一种比较直接的考查英语学习者语言使用和写作能力的方式已经被应用于几乎所有的国内外考试之中,有的还包括有大作文和小作文两种写作形式。然而,对写作的评分由于其不可避免的主观性和评分员个体倾向性的存在,评分的信度问题依然令人担忧。评分教师评判上差异的存在是客观存在,由此,在测试领域有许多对作文评分员之间差异进行测试和调节的研究和做法,其中多层面Rasch模型分析是常用的一种,参考文献可见田清源(2006),孙晓敏,薛刚(2008)等。这种方法可测出评分员的宽严和写作任务的难度等方面的差异,在评分层次上是一种有效的检验方法,可以调节各评分员之间的差异。然而,对评分员之间到底是在什么地方出现差异这样具体的问题,多层面Rasch模型还不能解答。
设想,如果我们能对不同评分员之间的异同不仅仅是在评分的宽严方面,而且在语言层面上都有更进一步的了解,那么我们就能更加细致的了解写作评分员内在的评判标准。获取这方面的信息对于写作评分将起到重要参考作用。由此,基于我们对学习者英语写作表现所进行的测量分析和研究的基础之上进行了对评分员的调查分析。基本思想是,既然我们可以用测量指标对学习者的语言表现和语言特征进行测量和探究,那么这些指标也应该适用于或者说有助于对写作评分员的评分特征和倾向进行测量和分析。通过一系列的研究探讨,我们发现把学习者英语写作测量指标所获得的数据用于与评分员的评分结果进行统计检测分析可以发现,不同评分教师在评分中的异同和倾向性,所得到的结果具有重要参考价值,由此,拟以本文简要报道这一探究过程并对其结果及意义做一定讨论。
2 学习者英语写作表现及语言特征的指标性测量及数据的获取
对英语学习者所进行的语言测量总的有两部分工作:第一是学习者文本的获取;第二是写作测量指标的确定及数据的获取。文本的数据获取来自一次大规模的写作实验,受试为211高校英语专业一年级和三年级以及非英语专业一年级至三年级的学生,每一个班级都有超过30人参加写作实验。在学生完成学做任务之后,我们在每一个班级随机抽取30人的文本,5个班一共150人,由于每位学生都完成了两项写作任务,因此一共获取的文本是300份。
对于测量指标的确定主要根据文献中所使用过的指标进行归纳和梳理而获得。根据文献,我们对众多的语言表现测量方式从语言表现的三个方面进行梳理。Ellis(2005:139)认为从语言准确性(Accuracy),语言复杂性(complexity)和语言流利性(fluency)三个方面来分析学习者语言能给我们提供更全面,更平衡的关于学习者语言的信息,因为学习者在完成二语产出任务时(包括口头和书面的语言产出)都会在这三个方面有所侧重。需要说明的是,虽然常说语言表现测量涉及三大方面,但语言复杂性常常被分为两个次类,即:结构复杂性(syntactical compelxiy)以及词汇复杂性。结构复杂性也有研究者称为语法复杂性(grammatical complexity)(Ellis & Barkhuizen 2005)。因此,在实际操作当中,我们是把指标归为四个方面:即,语言流利度,语言准确度,语言结构复杂度和词汇复杂度。
在综合了文献中(主要文献有Wolfe-Quintero等人1998,Ellis,R.&G.Barkhuizen.2005,陈慧媛2008,2010以及其他文献)关于语言表现不同方面的测量指标之后,我们从中筛选出了一个可操作的比较全面的对英语作为第二语言/外语学习者语言表现进行测量的总体量表,一共66项(限于篇幅,有关指标的具体内容和其他相关问题,有兴趣的读者可以与作者联系)。这一指标量表的甄选有这样几个原则:1)平衡语言不同方面的指标数量;2)主要选用适用于书面写作的测量指标;3)易于操作。第3点很重要,如果一项指标定义会引起编码分析中的混论或不统一,我们就不采用或换一个能明确定义和较易操作的。例如,在Wolfe-Quintero等人(1998)的文献中测量语言准确度的指标中有几项指标是数有错误等级的。他们把错误分为三个等级,按照错误的严重程度。我们认为这比较难于把握,因为不同的评判者对错误的严重性是很难统一的。因此我们不采用这样的方式,而是适用了错误总量和涉及错误的字数这样较为清楚明白的方式去对文本进行编码分析。
测量指标的测量方式一共有三种:1)频数的方式(frequency),即,以计数的方式对所出现的某一语言现象的频数进行计量,比如一份文本中的总词数,以字母W作为标志;2)比例或比率的方式(ratio),即:以分子式得出的结果,比如每一个T单位中的词数,以W/T代表;3)指标性的方式(index),即:以某一数学公式计算后得出的值,比如:词汇类型与2倍文本总词汇数量的开方(t/√2W)等。
之后,我们对300份文本根据每一项测量指标的定义或编码说明和分析标准逐一进行编码分析(coding)。编码分析之前所有的文本都输入了电脑,有的测量指标可以通过电脑操作获得,有的还是需要手工分析,比如:语言错误数量,修改次数,T单位等。有的是直接用电脑得出数据,比如,文本的长度(总词汇量),时间单位的语言产出量(W/M)等。还有的是人工操作电脑得出,比如:词汇类型与词汇标记的比例(t/t),词汇类型与2倍词汇数量的开方(t/√2W)等。其余的由5位教师,在此称为文本分析员,根据所拟定的指标的定义进行手工分析。之后,每一份文本的编码结果都输入Excel,使用Excel得出各项测量数据的比率结果或数值。这样,300份文本的每一份通过编码都得到了66项项测量指标的值,这就构成了我们的量化测量指标数据。这些数据代表着学习者写作中我们能测到的语言表现和语言特征。
3 对写作文本的评分
上面所阐述的是对我们的300份样本进行的量化测量所得到的结果。同时,对这300份文本又由另外3位教师根据一定的评分标准给每一份文本打分,即,给每一份作文一个整体得分。评分标准参考了雅思、托福、大学英语四六级及英语专业四级评分说明。我们确定的评分标准主要分为内容与语言两部分。这是因为我们认为语言与内容对于二语学习者来说会有不统一的情况。需要教师在这两方面进行平衡。内容方面主要是贴切性和丰富性,在语言方面分得较为细一些,评分标准见表1。
三位评分教师在此分别被称为评分员A,评分员B和评分员C。当评分完成之后,我们对评分结果进行了相关检验。3位评分教师之间的相关为.69,到.55,相关系数不太高。根据我们前面所说,对评分员进行评分差异或宽严检验不是我们的目的,我们的目标是发现评分员在那些具体的语言点评介方面存在差异。对此,关键的问题就是如何利用我们所获得的语言表现测量结果对不同评分员的评分结果进行具体的语言评判上的对比。下面一节将详细阐述如何运用统计手段对此所进行的探讨和分析。
4 对不同评分员评分结果的统计分析及结果讨论
我们的研究目是应用我们所获得的学习者写作表现的测量结果来分析评分员在评分中对学习者写作中语言表现的关注点,侧重点和倾向性。我们所使用的统计方法是多元线性逐步回归。回归分析被认为可用于解决一个变量与另一变量或者一组变量之间依存关系的统计方法(夏怡凡2010:165),还可进行因素分析,从影响因变量变化的因素变量中寻找出哪些因素对因变量的影响最为显著(郝黎仁等2002:206)。由于我们的研究就是要找出评分员与学习者语言表现两者之间的影响关系和依存关系,因此,应用多元回归可以帮助我们发现评分员评分中所注重的语言表现和特征。
本项研究一共获取了66项测量指标的值,在进行回归分析之前,为避免回归分析中的共线性问题,对66项指标进行了相关检验。因为某些指标之间可能存在着的高相关关系会严重影响回归的结果。相关分析之后把相关系数高于.55的指标去掉之后剩余的有38项。我们的回归分析就是以这38项指标为自变量,评分员各自的评分结果为因变量进行的。对三位评分员分别进行的多元逐步回归结果在表2中。表2中三位评分员每一位后面的指标项为回归分析中进入回归模型的语言表现指标。进入回归模型的指标即被认为是与因变量也就是评分员的评分有线性关系的指标,换句话说,进入的模型的指标在很大程度上与评分的结果有直接的影响关系。从表2可以看到与评分员A评分有关的有6项指标,与评分员B有关的也是6项指标;与评分员C有关的,只有4项指标。这些进入个评分员模型的指标也就是不同评分员在评分中比较注重而又比较一致的评分观察点,不同指标代表的是学习者写作中各个方面的语言表现和特征。统计分析的结果表示,有些语言表现和特征是评分员都共同关注的,也有的特征随评分员的不同,侧重也不同。
为进一步了解这些指标的含义,使得结果能够一目了然,这里把各项指标所代表的语言表现及特征以及与不同评分员的关系列在表3中。在表3中,第三竖栏(评分员一栏)中的数字代表不同的评分员:A表示1号评分员,B表示2号评分员,C表示3号评分员。如果一项指标进入了所有评分员的回归模型,那么这项指标后面就是三个评分员的字母代号:A,B,C。由此,我们可以看到前面两项指标进入了所有评分员的回归模型,说明这两项指标与三位评分员评分结果的线性关系很强,由此可以认为那两项指标是被所有评分员在评分中都注重的语言表现。由此可以看出评分员之间还是有一些共同点的。
从表2可以看出评分员之间的差异情况,评分员A和B的回归模型中都有6项指标进入,而且她们之间有三项指标是相同的,那就是:与语言错误相关的词数与总词数之比,复合名词短语数量与总名词短语数量之比和正确的T单位与总T单位数量之比。这说明这两位教师都注重与错误有关的词的数量,复合名词的数量及正确的T单位的数量。T单位是一个包含了附属子句的独立子句。评分员A和B的差异在于,评分员A注重动词的类别数量,也就是动词的变化程度较大的在评分员A那里就能获得比较好的分数。评分员B注重正确的子句(包括独立子句和附属子句)的数量。相比之下,评分员C的评分倾向与评分员A和B差异较大。她注重的是:语言错误的数量而不是与语言错误相关的词的数量,这是两个概念。另外,她还注重写作中的句子之间的分隔,大小写等写作技能问题。
这里要说明的一点是,这里提到这些进入模型的指标并不意味着评分员不注意其他语言特征和表现,只是这些进入模型的指标与评分员的评分关系更加紧密,一贯性更好,更加具有一致性。有了结果之后,我们对评分员也做了闲聊式的交谈,以验证评分员是否更侧重这些指标所代表的语言特征。虽然评分员对她们的评分倾向在交谈之前并没有比较清楚的考虑和意识,但是从交谈中可以了解到她们的确是更侧重统计分析所测出的语言特点的。比如评分员A和B就认为一个文本中语言错误的个数不是很说明问题,关键的是语言错误所涉及的量和严重程度,例如,表达不当或不清楚只是被看做一个错误,但是往往表达不清楚的地方不仅涉及一个词,而可能是一个词组或整个句子。另外有一些错误并不影响意义表达,只是形式上的问题比如复数的忘了加“s”。就写作而言,意义的表达更加重要,因此,意义不清晰或者说深层意义表达的问题属于更加深层次,更严重的错误,而这严重性的量化体现就是与错误有关的词,而不只是简单的错误个数。因此表3中第3项指标“与错误相关的词的数量”是她们评分时测度语言准确度的一个重要“标杆”。由此可见,我们的研究方式的确能够发现教师在写作评分中的一些有意或无意的心理倾向性。
5 讨论与结语
对于本项研究的结果在此仅简单讨论两个问题,首先是评分员的共同点问题。从表2可以看出评分员对文章长度都有一致看法,对于诸如此类的限时作文,长度的确能体现文章内容的丰富性及写作者的语言表达和把握程度。另一个就是被动语态的使用,这一语言适用特点成为所有评分员的共同关注点也许是因为被动态的使用使得写作显得更地道,更成熟的原因。对此,希望以后能有其他研究者有进一步的研究和证实。
另外,评分员之间为什么会出现差异的问题。我们知道作文评分不可避免地带有一定的主观性。虽然所有作文考试都有评分标准,但评分员之间在个人倾向,对写作的认识,对某些语言问题的容忍程度,教学经验经历,对语言和语言习得的看法等等方面的认识差异都会影响评分员的评分习惯和倾向。另外年龄以及教师的教学对象也可能是影响因素。这里的三位评分员中评分员C与其他两位的差异较大,她是三位评分员中年龄最小的,不到30岁,她的教学对象为大学外语的学生。当然,年龄和教学对象应该说是属于外在的因素,而外在的因素是否会影响评分的倾向和习惯还有待进一步的研究。
本项研究是对评分员评分的内在倾向性和侧重点所进行的一个探究性的、方法上的探讨,作为一种探究性研究,还会有不完善的地方。由于本项研究对于分析教师的内在心理行为具有理论和实际意义,对作文评分和评分员培训、评价等等相关的领域都具有参考意义,所以把研究结果汇报于此,希望能得到各方的指正。
参考文献:
[1]Crookes, G. 1990. The utterance, and other basic units for second language discourse analysis[J]. Applied Linguistics 11/2: 183-199.
[2]Ellis, R. 2005. Analyzing Learner Language[M]. Oxford: New York.
[3]Hunt, K. W. 1970. Recent measures in syntactic development[A]. In M. Lester (ed.). Readings in Applied Transformational Grammar[C]. New York: Holt, Rinehart.
[4]McNamara, T. 1996. Measuring second language performance. [M] New York: Longman.
[5]Wolfe-Quintero, K., S. Inagaki & H. Kim. 1998. Second language development in writing: Measures of fluency, accuracy & complexity[P]. Technical Report #17. University of Hawai’i at Manroa: Second Language Teaching & Curriculum Center.
[6]陈慧媛,二语写作任务与语言表现[M].昆明:云南大学出版社,2008
[7]陈慧媛,英语学习者语言表现测量指标的所属类别及特性研究[J].(现代外语),2010,33/1:72-80.
[8]郝黎仁,樊元,郝哲欧,SPSS实用统计分析〔S〕.(编著)中国水利水电出版社,2002
[9]孙晓敏,薛刚,多面Rasch模型在结构话面试中的应用[J].(心理学报)2008,40/9:1030-1039.
[10]田清源,主观评分中多面Rasch模型的应用[J].(心理学探新)2006,97/1:70-73.
[11]夏怡凡,SPSS统计分析精要与实例详解(编著)电子工业出版社,2010
关键词:作文评分 语言表写指标 评分倾向
1 前言
目前,英语写作作为一种比较直接的考查英语学习者语言使用和写作能力的方式已经被应用于几乎所有的国内外考试之中,有的还包括有大作文和小作文两种写作形式。然而,对写作的评分由于其不可避免的主观性和评分员个体倾向性的存在,评分的信度问题依然令人担忧。评分教师评判上差异的存在是客观存在,由此,在测试领域有许多对作文评分员之间差异进行测试和调节的研究和做法,其中多层面Rasch模型分析是常用的一种,参考文献可见田清源(2006),孙晓敏,薛刚(2008)等。这种方法可测出评分员的宽严和写作任务的难度等方面的差异,在评分层次上是一种有效的检验方法,可以调节各评分员之间的差异。然而,对评分员之间到底是在什么地方出现差异这样具体的问题,多层面Rasch模型还不能解答。
设想,如果我们能对不同评分员之间的异同不仅仅是在评分的宽严方面,而且在语言层面上都有更进一步的了解,那么我们就能更加细致的了解写作评分员内在的评判标准。获取这方面的信息对于写作评分将起到重要参考作用。由此,基于我们对学习者英语写作表现所进行的测量分析和研究的基础之上进行了对评分员的调查分析。基本思想是,既然我们可以用测量指标对学习者的语言表现和语言特征进行测量和探究,那么这些指标也应该适用于或者说有助于对写作评分员的评分特征和倾向进行测量和分析。通过一系列的研究探讨,我们发现把学习者英语写作测量指标所获得的数据用于与评分员的评分结果进行统计检测分析可以发现,不同评分教师在评分中的异同和倾向性,所得到的结果具有重要参考价值,由此,拟以本文简要报道这一探究过程并对其结果及意义做一定讨论。
2 学习者英语写作表现及语言特征的指标性测量及数据的获取
对英语学习者所进行的语言测量总的有两部分工作:第一是学习者文本的获取;第二是写作测量指标的确定及数据的获取。文本的数据获取来自一次大规模的写作实验,受试为211高校英语专业一年级和三年级以及非英语专业一年级至三年级的学生,每一个班级都有超过30人参加写作实验。在学生完成学做任务之后,我们在每一个班级随机抽取30人的文本,5个班一共150人,由于每位学生都完成了两项写作任务,因此一共获取的文本是300份。
对于测量指标的确定主要根据文献中所使用过的指标进行归纳和梳理而获得。根据文献,我们对众多的语言表现测量方式从语言表现的三个方面进行梳理。Ellis(2005:139)认为从语言准确性(Accuracy),语言复杂性(complexity)和语言流利性(fluency)三个方面来分析学习者语言能给我们提供更全面,更平衡的关于学习者语言的信息,因为学习者在完成二语产出任务时(包括口头和书面的语言产出)都会在这三个方面有所侧重。需要说明的是,虽然常说语言表现测量涉及三大方面,但语言复杂性常常被分为两个次类,即:结构复杂性(syntactical compelxiy)以及词汇复杂性。结构复杂性也有研究者称为语法复杂性(grammatical complexity)(Ellis & Barkhuizen 2005)。因此,在实际操作当中,我们是把指标归为四个方面:即,语言流利度,语言准确度,语言结构复杂度和词汇复杂度。
在综合了文献中(主要文献有Wolfe-Quintero等人1998,Ellis,R.&G.Barkhuizen.2005,陈慧媛2008,2010以及其他文献)关于语言表现不同方面的测量指标之后,我们从中筛选出了一个可操作的比较全面的对英语作为第二语言/外语学习者语言表现进行测量的总体量表,一共66项(限于篇幅,有关指标的具体内容和其他相关问题,有兴趣的读者可以与作者联系)。这一指标量表的甄选有这样几个原则:1)平衡语言不同方面的指标数量;2)主要选用适用于书面写作的测量指标;3)易于操作。第3点很重要,如果一项指标定义会引起编码分析中的混论或不统一,我们就不采用或换一个能明确定义和较易操作的。例如,在Wolfe-Quintero等人(1998)的文献中测量语言准确度的指标中有几项指标是数有错误等级的。他们把错误分为三个等级,按照错误的严重程度。我们认为这比较难于把握,因为不同的评判者对错误的严重性是很难统一的。因此我们不采用这样的方式,而是适用了错误总量和涉及错误的字数这样较为清楚明白的方式去对文本进行编码分析。
测量指标的测量方式一共有三种:1)频数的方式(frequency),即,以计数的方式对所出现的某一语言现象的频数进行计量,比如一份文本中的总词数,以字母W作为标志;2)比例或比率的方式(ratio),即:以分子式得出的结果,比如每一个T单位中的词数,以W/T代表;3)指标性的方式(index),即:以某一数学公式计算后得出的值,比如:词汇类型与2倍文本总词汇数量的开方(t/√2W)等。
之后,我们对300份文本根据每一项测量指标的定义或编码说明和分析标准逐一进行编码分析(coding)。编码分析之前所有的文本都输入了电脑,有的测量指标可以通过电脑操作获得,有的还是需要手工分析,比如:语言错误数量,修改次数,T单位等。有的是直接用电脑得出数据,比如,文本的长度(总词汇量),时间单位的语言产出量(W/M)等。还有的是人工操作电脑得出,比如:词汇类型与词汇标记的比例(t/t),词汇类型与2倍词汇数量的开方(t/√2W)等。其余的由5位教师,在此称为文本分析员,根据所拟定的指标的定义进行手工分析。之后,每一份文本的编码结果都输入Excel,使用Excel得出各项测量数据的比率结果或数值。这样,300份文本的每一份通过编码都得到了66项项测量指标的值,这就构成了我们的量化测量指标数据。这些数据代表着学习者写作中我们能测到的语言表现和语言特征。
3 对写作文本的评分
上面所阐述的是对我们的300份样本进行的量化测量所得到的结果。同时,对这300份文本又由另外3位教师根据一定的评分标准给每一份文本打分,即,给每一份作文一个整体得分。评分标准参考了雅思、托福、大学英语四六级及英语专业四级评分说明。我们确定的评分标准主要分为内容与语言两部分。这是因为我们认为语言与内容对于二语学习者来说会有不统一的情况。需要教师在这两方面进行平衡。内容方面主要是贴切性和丰富性,在语言方面分得较为细一些,评分标准见表1。
三位评分教师在此分别被称为评分员A,评分员B和评分员C。当评分完成之后,我们对评分结果进行了相关检验。3位评分教师之间的相关为.69,到.55,相关系数不太高。根据我们前面所说,对评分员进行评分差异或宽严检验不是我们的目的,我们的目标是发现评分员在那些具体的语言点评介方面存在差异。对此,关键的问题就是如何利用我们所获得的语言表现测量结果对不同评分员的评分结果进行具体的语言评判上的对比。下面一节将详细阐述如何运用统计手段对此所进行的探讨和分析。
4 对不同评分员评分结果的统计分析及结果讨论
我们的研究目是应用我们所获得的学习者写作表现的测量结果来分析评分员在评分中对学习者写作中语言表现的关注点,侧重点和倾向性。我们所使用的统计方法是多元线性逐步回归。回归分析被认为可用于解决一个变量与另一变量或者一组变量之间依存关系的统计方法(夏怡凡2010:165),还可进行因素分析,从影响因变量变化的因素变量中寻找出哪些因素对因变量的影响最为显著(郝黎仁等2002:206)。由于我们的研究就是要找出评分员与学习者语言表现两者之间的影响关系和依存关系,因此,应用多元回归可以帮助我们发现评分员评分中所注重的语言表现和特征。
本项研究一共获取了66项测量指标的值,在进行回归分析之前,为避免回归分析中的共线性问题,对66项指标进行了相关检验。因为某些指标之间可能存在着的高相关关系会严重影响回归的结果。相关分析之后把相关系数高于.55的指标去掉之后剩余的有38项。我们的回归分析就是以这38项指标为自变量,评分员各自的评分结果为因变量进行的。对三位评分员分别进行的多元逐步回归结果在表2中。表2中三位评分员每一位后面的指标项为回归分析中进入回归模型的语言表现指标。进入回归模型的指标即被认为是与因变量也就是评分员的评分有线性关系的指标,换句话说,进入的模型的指标在很大程度上与评分的结果有直接的影响关系。从表2可以看到与评分员A评分有关的有6项指标,与评分员B有关的也是6项指标;与评分员C有关的,只有4项指标。这些进入个评分员模型的指标也就是不同评分员在评分中比较注重而又比较一致的评分观察点,不同指标代表的是学习者写作中各个方面的语言表现和特征。统计分析的结果表示,有些语言表现和特征是评分员都共同关注的,也有的特征随评分员的不同,侧重也不同。
为进一步了解这些指标的含义,使得结果能够一目了然,这里把各项指标所代表的语言表现及特征以及与不同评分员的关系列在表3中。在表3中,第三竖栏(评分员一栏)中的数字代表不同的评分员:A表示1号评分员,B表示2号评分员,C表示3号评分员。如果一项指标进入了所有评分员的回归模型,那么这项指标后面就是三个评分员的字母代号:A,B,C。由此,我们可以看到前面两项指标进入了所有评分员的回归模型,说明这两项指标与三位评分员评分结果的线性关系很强,由此可以认为那两项指标是被所有评分员在评分中都注重的语言表现。由此可以看出评分员之间还是有一些共同点的。
从表2可以看出评分员之间的差异情况,评分员A和B的回归模型中都有6项指标进入,而且她们之间有三项指标是相同的,那就是:与语言错误相关的词数与总词数之比,复合名词短语数量与总名词短语数量之比和正确的T单位与总T单位数量之比。这说明这两位教师都注重与错误有关的词的数量,复合名词的数量及正确的T单位的数量。T单位是一个包含了附属子句的独立子句。评分员A和B的差异在于,评分员A注重动词的类别数量,也就是动词的变化程度较大的在评分员A那里就能获得比较好的分数。评分员B注重正确的子句(包括独立子句和附属子句)的数量。相比之下,评分员C的评分倾向与评分员A和B差异较大。她注重的是:语言错误的数量而不是与语言错误相关的词的数量,这是两个概念。另外,她还注重写作中的句子之间的分隔,大小写等写作技能问题。
这里要说明的一点是,这里提到这些进入模型的指标并不意味着评分员不注意其他语言特征和表现,只是这些进入模型的指标与评分员的评分关系更加紧密,一贯性更好,更加具有一致性。有了结果之后,我们对评分员也做了闲聊式的交谈,以验证评分员是否更侧重这些指标所代表的语言特征。虽然评分员对她们的评分倾向在交谈之前并没有比较清楚的考虑和意识,但是从交谈中可以了解到她们的确是更侧重统计分析所测出的语言特点的。比如评分员A和B就认为一个文本中语言错误的个数不是很说明问题,关键的是语言错误所涉及的量和严重程度,例如,表达不当或不清楚只是被看做一个错误,但是往往表达不清楚的地方不仅涉及一个词,而可能是一个词组或整个句子。另外有一些错误并不影响意义表达,只是形式上的问题比如复数的忘了加“s”。就写作而言,意义的表达更加重要,因此,意义不清晰或者说深层意义表达的问题属于更加深层次,更严重的错误,而这严重性的量化体现就是与错误有关的词,而不只是简单的错误个数。因此表3中第3项指标“与错误相关的词的数量”是她们评分时测度语言准确度的一个重要“标杆”。由此可见,我们的研究方式的确能够发现教师在写作评分中的一些有意或无意的心理倾向性。
5 讨论与结语
对于本项研究的结果在此仅简单讨论两个问题,首先是评分员的共同点问题。从表2可以看出评分员对文章长度都有一致看法,对于诸如此类的限时作文,长度的确能体现文章内容的丰富性及写作者的语言表达和把握程度。另一个就是被动语态的使用,这一语言适用特点成为所有评分员的共同关注点也许是因为被动态的使用使得写作显得更地道,更成熟的原因。对此,希望以后能有其他研究者有进一步的研究和证实。
另外,评分员之间为什么会出现差异的问题。我们知道作文评分不可避免地带有一定的主观性。虽然所有作文考试都有评分标准,但评分员之间在个人倾向,对写作的认识,对某些语言问题的容忍程度,教学经验经历,对语言和语言习得的看法等等方面的认识差异都会影响评分员的评分习惯和倾向。另外年龄以及教师的教学对象也可能是影响因素。这里的三位评分员中评分员C与其他两位的差异较大,她是三位评分员中年龄最小的,不到30岁,她的教学对象为大学外语的学生。当然,年龄和教学对象应该说是属于外在的因素,而外在的因素是否会影响评分的倾向和习惯还有待进一步的研究。
本项研究是对评分员评分的内在倾向性和侧重点所进行的一个探究性的、方法上的探讨,作为一种探究性研究,还会有不完善的地方。由于本项研究对于分析教师的内在心理行为具有理论和实际意义,对作文评分和评分员培训、评价等等相关的领域都具有参考意义,所以把研究结果汇报于此,希望能得到各方的指正。
参考文献:
[1]Crookes, G. 1990. The utterance, and other basic units for second language discourse analysis[J]. Applied Linguistics 11/2: 183-199.
[2]Ellis, R. 2005. Analyzing Learner Language[M]. Oxford: New York.
[3]Hunt, K. W. 1970. Recent measures in syntactic development[A]. In M. Lester (ed.). Readings in Applied Transformational Grammar[C]. New York: Holt, Rinehart.
[4]McNamara, T. 1996. Measuring second language performance. [M] New York: Longman.
[5]Wolfe-Quintero, K., S. Inagaki & H. Kim. 1998. Second language development in writing: Measures of fluency, accuracy & complexity[P]. Technical Report #17. University of Hawai’i at Manroa: Second Language Teaching & Curriculum Center.
[6]陈慧媛,二语写作任务与语言表现[M].昆明:云南大学出版社,2008
[7]陈慧媛,英语学习者语言表现测量指标的所属类别及特性研究[J].(现代外语),2010,33/1:72-80.
[8]郝黎仁,樊元,郝哲欧,SPSS实用统计分析〔S〕.(编著)中国水利水电出版社,2002
[9]孙晓敏,薛刚,多面Rasch模型在结构话面试中的应用[J].(心理学报)2008,40/9:1030-1039.
[10]田清源,主观评分中多面Rasch模型的应用[J].(心理学探新)2006,97/1:70-73.
[11]夏怡凡,SPSS统计分析精要与实例详解(编著)电子工业出版社,2010