大规模网上作文评分的信度研究—CEPT写作评分一致性检测

来源 :湖南大学 | 被引量 : 0次 | 上传用户:originalmemory
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
评分不一致是影响评分信度的主要因素。本文通过评分一致性检测来研究大规模网上作文评分的信度。以湖南大学英语分级考试作文测试为研究对象,采用IRT多侧面Rasch模型,通过分析评分员内部一致性及评分员之间的一致性来研究评分的信度。 本研究从2007年9月湖南大学英语分级考试作文测试中随机抽出540份考卷,涵盖4个写作任务,并由9位评分员对试卷进行了第二次评分,评分采用了“二读法”。所得的数据利用FACETS软件进行分析。研究采用的模型(即Partial CreditModel)假定每个评分员有独立的评分量表,这种模型可以用来考查评分员对评分标准的理解和使用是否存在显著差异。本文首先运用FACETS主层面分析检查单个评分员的评分严厉度及评分员对评分标准的把握是否保持一致,然后运用偏差分析探讨单个评分员在不同的写作任务上是否具有评分一致性。通过分析,本研究得出以下结论:第一,评分员的严厉度水平存在显著性差异;第二,评分员内部一致性较好,但评分员之间的一致性较差;第三,所有评分员在评阅不同的写作任务时保持了内部一致性,无显著偏差,但总体严厉度不高;第四,部分考生的分数经FACETS分析后得出的平均分与原始分存在差异。 本研究对如何提高写作评分的一致性提出以下建议:1.根据数据分析对评分量表解释有歧义或不准确的地方进行修改。2.评分一致性不高的评分员进行再培训,指出并纠正其缺点。3.由于大规模考试对考生具有很高的利益攸关性(high-stakes),建议对考生分数进行FACETS分析以调整其差异显著分数,这也正是本研究的一个尝试和创新。 在大规模考试作文评分中,对误差的控制是十分必要地。控制误差主要是确保评分员内部一致性及评分员之间的一致性。通过利用多侧面Rasch模型的FACET软件对评分差异进行分析,根据拟合值和偏差值来检测评分不一致的评分员,对他们进行再培训或予以更换,以此来保证大规模考试作文评分的信度。
其他文献
本文给出了一种相对简单有效的PID参数整定方法.该方法以Zieloger-Niclosls法PID参数整定为依据,可任意修改仿真参数,减少计算工作量、简化编程是其主要特点和优势.此方法的
弗里德里希·席勒(Friedrich Schiller)(1759-1805),是德国18世纪著名诗人、哲学家、历史学家和剧作家,德国启蒙文学的代表人物之一。席勒的《阴谋与爱情》是一部五幕市民悲剧,深为
本文通过对荣华二采区10
人民的生活水平提高,吃肉、蛋、奶的量增多。目前肉食品的质量不宜乐观,肉品常受到各种污染,严重影响人民的食肉安全。通过采取综合措施,从养殖源头治理,加大流通和交易环节
尤金·奥尼尔,因其在戏剧方面取得的突出成就而成为美国戏剧史上三大剧作家之一·他一生创作了五十多部作品,为美国戏剧的成熟做出了卓越贡献,被誉为“美国戏剧之父”。本文将以
本文从认知的视角,综合运用批评隐喻分析和语法隐喻分析两种隐喻分析模式,对中、美公司法中“公司”概念隐喻和语法隐喻做出分析,比较“公司”在两个文本中出现的频率及其所呈现
《大学英语课程教学要求》(2007)建议充分利用多媒体、网络技术发展带来的契机,采用新的“以现代信息技术为支撑,特别是网络技术”的听说教学模式(CALL),改进以往以教师讲授为主的单
我这大半辈子,经历过许多事情,比如“饥饿”、“文革”、上山下乡、计划生育等。也干过许多工作,比如种地、盖房、养鸡、办速冻饺子厂、办杂志等。也涉足过电影,大家熟知的《
《天堂》(1998)是托尼·莫里森获得诺贝尔文学奖后历时4年倾心打造的一部文学力作。作为“三部曲”的终结篇,《天堂》将其视线投向处于当代多元文化,移民社会和全球化大背景下
本文将侧重于以舞台演出为目的的戏剧翻译研究。传统翻译理论强调译文对原文的忠诚,“对等”是衡量翻译优劣的最高准则。然而,德国功能主义翻译理论打破了“对等”在传统翻译中