论文部分内容阅读
写作测试是语言应用测试用于英语教学中最常见的测试之一,然而写作测试评分的主观性让测试人员难以客观准确测量出学生的写作能力(Cho 2003;何莲珍等2008)。写作测试中,评分员、写作任务、评分标准等其他因素往往会导致考生分数的误差变异,这些因素或独立或交互的作用方式也增加了分数误差来源的复杂性。由于主观评分是写作测试中的重要环节,评分员在评分过程中所表现的差异就成为能够显著影响评分结果的重要因素之一。McNamara(1996)指出,围绕评分员的一起变量均产生交互,从而带来误差,因而对评分误差的研究从评分员自身得以延伸到评分员与其他变量的交互。McNamara(1996)指出,评分员的背景与评分结果显著相关。然而,对于评分员的背景所带来的评分员效应和偏差模式的研究很少,所得出的结论也不一致。本研究运用多面Rasch模型研究评分员在写作评分中表现的评分员效应,如宽严度、评分一致性等;同时从评分员背景出发,通过Rasch模型的偏差分析,研究不同性别和具有不同评分经验的评分员在评卷过程中针对不同考生、不同评分维度所表现出的偏颇模式,并通过访谈深入具体的对评分过程进行定性分析,更进一步探讨评分员性别和评分经验背景是否为产生评分系统误差的根源。本研究通过一次课堂写作测验,经批改网收集了 137份英语作文(7份用于写作评分培训,130份用于实际数据分析),并邀请7位评分员进行评分。7位评分员在经过统一的评分培训后,运用同一个写作评分分项量表对130篇作文进行了评阅。该量表包含任务完成度、词汇、句法和衔接与连贯四个不同的维度。本研究将7位评分员根据其性别和评分经验的不同分为不同评分组别,运用Rasch模型对其评分结果进行了深入细致的研究和分析,得出以下结论:1)七位评分员在评分过程中表现出显著严厉度差异,或多或少显示出随机效应;评分员均呈现出良好的评分员间信度,除一位评分员外,其他评分员均表现出良好的自身一致性;未表现出显著的趋中效应;2)不同性别评分员表现出评分差异。男性评分员相比女性评分员评分更为宽松,呈现出更高的评分一致性,但更容易产生集中趋势;女性评分员评分更容易出现随机效应,也更容易产生评分偏颇;3)不同性别评分员在与不同能力考生之间以及与不同评分维度之间产生不同的偏颇模式,但差异并不显著,故性别因素不会引入系统性误差。4)不同评分经验评分员表现出评分差异。中手及老手评分员相比新手评分员评分更为宽松,呈现出更高的评分一致性,但更容易产生集中趋势;新手评分员更容易出现随机效应,也更容易出现评分偏颇;5)不同评分经验评分员在与不同能力考生之间以及与不同评分维度之间产生不同的偏颇模式,差异显著,呈现出系统的评分偏颇模式,即老手评分员对考生产生更为宽松的偏颇模式,新手呈现更严厉的偏颇模式;老手评分员对句法等语法类维度呈现严厉偏颇模式,新手对任务完成等内容相关维度呈现严厉偏颇模式。经卡方检验,差异显著,故评分经验会引入系统误差;根据评分员的具体评分表现,本研究对如何提高并改善评分信度和评分质量提出具体、有效的建议;根据不同背景评分员对于评分标准的使用分析,可以为评分员的选用和评分员培训提供有价值的反馈信息;根据评分员与评分量表的使用与偏颇分析,直观地反馈了评分量表本身及使用过程中的问题与适用性,可用于帮助改进和补充评分标准;根据评分员对作文文本的不同侧重,也可对写作教学提供教学建议。同时,也证明多面Rasch模型可作为写作测试及其他语言应用测试的评分质量监控和评估的有力工具。