大学英语口语机考三阅评分模式的可靠性研究

被引量 : 0次 | 上传用户:siery
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
口语考试是语言水平考试的重要组成部分。同时,口语考试是一种体现考生真实语言运用水平的测试手段,因此任何一个科学和理想的语言类测试都应该要包含口语考试。然而,口语考试也有其自身的特点,由于主观性考试的评分主要依靠评分员的主观判断,因此有效控制口语测试评分的客观性和公正性就是保证口语测试结果可靠性的一个重要途径。本研究针对大规模口语考试评分中存在的评分不一致现象,提出了口语测试评分的三阅模式,并验证该评分模式是否在修正口语测试评分结果一致性上起到有效作用。本研究的实验数据来自2011年1月湖南大学国际教育学院ESL考试中的计算机化口语测试。该口语测试包括四个部分,考试过程全程由计算机自动录音保存为考生文件,考试结果由13位评分员参加阅卷,一阅评分员5位,二阅评分员5位,三阅评分员3位。一阅评分员与二阅评分员同时评分,一阅评分员与二阅评分员的评分结果差异大于一个级别或以上的考生文件由三阅最终评分。数据分析采用IRT多侧面Rasch模型,通过分析评分员内部一致性与评分员之间的一致性以及偏差模式来研究三阅评分模式在减少主观评分误差上的可靠性。通过分析,本研究得出以下结论:首先,一阅评分员与二阅评分员在评分严厉度上呈现显著性差异,其中评分员L评分过于严厉,评分员K和评分员A在评分过程中却表现过于宽松;其次,在四个部分的评分中,评分员A和评分员C的内部均方拟合值超出理想区间范围0.5-1.5之外,大部分评分员基本保持较好的内部一致性;再次,就评分员之间一致性来看,模型分析数据显示为21.9%,未达到多侧面Rasch模型要求的一致性程度。另外,偏差分析的结果显示考生原始分数与模型调整后的分数存在显著性差异,各个评分员呈现出自己独特的评分偏差模式,基本表现为评分员对低水平考生评分严厉,而对高水平考生评分宽松;最后,对三阅评分结果的数据分析显示,三阅评分员既没有表现出一阅与二阅评分员评分的过于“趋中”也没有表现出过于“不可预测”,其拟合均方值接近理想值1,基本符合模型数据要求。另外,三阅评分结果的原始分数与模型调整分数趋于一致。本研究的意义首先体现在对于湖南大学国际教育学院ESL考试以及英语分级考试口语考试部分的评分员三阅评分提供了信度分析,并且为这一评分模式的进一步发展和完善提供了实证研究。数据分析结果显示了三阅评分结果与多侧面Rasch模型更为拟合,在评分中更加保证了考生分数解释的科学性和合理性,这也为之后的语言测试主观考试评分模式提供了参考依据。
其他文献
瘤胃是反气动物的一个重要消化器官,其中含有丰富的微生物资源,主要包括细菌、真菌、原生动物等多种微生物,约90%左右为未培养微生物。瘤胃中生白质的降解提供了反气动物40%
当今时代,信息充斥在人们生活的各个角落,而网络在信息传播的过程中占有无可取代的地位。越来越多的汉语学习者希望在网上通过汉语真切地了解中国的文化和社会。与此同时,中
本文从中国古代哲学关于宇宙、人生“有”“无”境界的学说和“以我观物”、“以物观物”的本义入手,对土国维的两种境界说作出新的解释,认为“有我之境”乃超越“小我”之儒
<正>随着中国物流业的飞速发展,第三方物流公司如雨后春笋般地涌现,很多第三方物流公司拥有强大的物流策划、物流整合等方面功能,而具体的运输操作非自己的强项,因此不得不把
网粒体是叶蝉科体表常见的分泌物,分泌的网粒体液滴先储存于网粒体储存区,这个过程是通过后足完成。小叶蝉亚科昆虫前翅普遍存在网粒体储存区。目前国内外学者对小叶蝉亚科的网
目的 观察加减桑杏汤联合阿奇霉素治疗小儿支原体肺炎的临床疗效.方法 选择我院于2015年1月-2016年10月收治的支原体肺炎患儿共106例,随机分为观察组53例及对照组53例,对照组
本文以浙江传统民艺中的龙泉青瓷为研究对象展开设计研究。首先,就龙泉青瓷的属性认知做基础调研与形象感知。其次,基于现代工业设计的立场展开设计研究方法的探讨,同时导入中国
权力观是政治文化的核心部分,同时它也是世界观、人生观的重要内容,指导着人们的行为活动。马克思主义权力观是无产阶级政党在夺取和执掌国家政权实践的基础上产生,并逐步得
目的严重烧伤早期,在毛细血管通透性增加造成血容量显著下降之前,就已出现了明显的心肌损害。这种即早出现的心肌损害,不仅诱发或加重休克,而且是其它脏器如肝、肾、肠等缺血缺氧
现阶段农民工住房条件仍十分恶劣,农民工的住房问题亟待解决。近几年很多城市相继推行了农民工廉租房政策,然而在政策执行过程中大都面临困境,未能有效解决农民工住房问题,长