论文部分内容阅读
口语考试是语言水平考试的重要组成部分。同时,口语考试是一种体现考生真实语言运用水平的测试手段,因此任何一个科学和理想的语言类测试都应该要包含口语考试。然而,口语考试也有其自身的特点,由于主观性考试的评分主要依靠评分员的主观判断,因此有效控制口语测试评分的客观性和公正性就是保证口语测试结果可靠性的一个重要途径。本研究针对大规模口语考试评分中存在的评分不一致现象,提出了口语测试评分的三阅模式,并验证该评分模式是否在修正口语测试评分结果一致性上起到有效作用。本研究的实验数据来自2011年1月湖南大学国际教育学院ESL考试中的计算机化口语测试。该口语测试包括四个部分,考试过程全程由计算机自动录音保存为考生文件,考试结果由13位评分员参加阅卷,一阅评分员5位,二阅评分员5位,三阅评分员3位。一阅评分员与二阅评分员同时评分,一阅评分员与二阅评分员的评分结果差异大于一个级别或以上的考生文件由三阅最终评分。数据分析采用IRT多侧面Rasch模型,通过分析评分员内部一致性与评分员之间的一致性以及偏差模式来研究三阅评分模式在减少主观评分误差上的可靠性。通过分析,本研究得出以下结论:首先,一阅评分员与二阅评分员在评分严厉度上呈现显著性差异,其中评分员L评分过于严厉,评分员K和评分员A在评分过程中却表现过于宽松;其次,在四个部分的评分中,评分员A和评分员C的内部均方拟合值超出理想区间范围0.5-1.5之外,大部分评分员基本保持较好的内部一致性;再次,就评分员之间一致性来看,模型分析数据显示为21.9%,未达到多侧面Rasch模型要求的一致性程度。另外,偏差分析的结果显示考生原始分数与模型调整后的分数存在显著性差异,各个评分员呈现出自己独特的评分偏差模式,基本表现为评分员对低水平考生评分严厉,而对高水平考生评分宽松;最后,对三阅评分结果的数据分析显示,三阅评分员既没有表现出一阅与二阅评分员评分的过于“趋中”也没有表现出过于“不可预测”,其拟合均方值接近理想值1,基本符合模型数据要求。另外,三阅评分结果的原始分数与模型调整分数趋于一致。本研究的意义首先体现在对于湖南大学国际教育学院ESL考试以及英语分级考试口语考试部分的评分员三阅评分提供了信度分析,并且为这一评分模式的进一步发展和完善提供了实证研究。数据分析结果显示了三阅评分结果与多侧面Rasch模型更为拟合,在评分中更加保证了考生分数解释的科学性和合理性,这也为之后的语言测试主观考试评分模式提供了参考依据。