论文部分内容阅读
评分不一致是影响评分信度的主要因素。本文通过评分一致性检测来研究大规模网上作文评分的信度。以湖南大学英语分级考试作文测试为研究对象,采用IRT多侧面Rasch模型,通过分析评分员内部一致性及评分员之间的一致性来研究评分的信度。
本研究从2007年9月湖南大学英语分级考试作文测试中随机抽出540份考卷,涵盖4个写作任务,并由9位评分员对试卷进行了第二次评分,评分采用了“二读法”。所得的数据利用FACETS软件进行分析。研究采用的模型(即Partial CreditModel)假定每个评分员有独立的评分量表,这种模型可以用来考查评分员对评分标准的理解和使用是否存在显著差异。本文首先运用FACETS主层面分析检查单个评分员的评分严厉度及评分员对评分标准的把握是否保持一致,然后运用偏差分析探讨单个评分员在不同的写作任务上是否具有评分一致性。通过分析,本研究得出以下结论:第一,评分员的严厉度水平存在显著性差异;第二,评分员内部一致性较好,但评分员之间的一致性较差;第三,所有评分员在评阅不同的写作任务时保持了内部一致性,无显著偏差,但总体严厉度不高;第四,部分考生的分数经FACETS分析后得出的平均分与原始分存在差异。
本研究对如何提高写作评分的一致性提出以下建议:1.根据数据分析对评分量表解释有歧义或不准确的地方进行修改。2.评分一致性不高的评分员进行再培训,指出并纠正其缺点。3.由于大规模考试对考生具有很高的利益攸关性(high-stakes),建议对考生分数进行FACETS分析以调整其差异显著分数,这也正是本研究的一个尝试和创新。
在大规模考试作文评分中,对误差的控制是十分必要地。控制误差主要是确保评分员内部一致性及评分员之间的一致性。通过利用多侧面Rasch模型的FACET软件对评分差异进行分析,根据拟合值和偏差值来检测评分不一致的评分员,对他们进行再培训或予以更换,以此来保证大规模考试作文评分的信度。