基于Rasch模型的写作测试评分员效应研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:hrroad
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
写作测试是语言应用测试用于英语教学中最常见的测试之一,然而写作测试评分的主观性让测试人员难以客观准确测量出学生的写作能力(Cho 2003;何莲珍等2008)。写作测试中,评分员、写作任务、评分标准等其他因素往往会导致考生分数的误差变异,这些因素或独立或交互的作用方式也增加了分数误差来源的复杂性。由于主观评分是写作测试中的重要环节,评分员在评分过程中所表现的差异就成为能够显著影响评分结果的重要因素之一。McNamara(1996)指出,围绕评分员的一起变量均产生交互,从而带来误差,因而对评分误差的研究从评分员自身得以延伸到评分员与其他变量的交互。McNamara(1996)指出,评分员的背景与评分结果显著相关。然而,对于评分员的背景所带来的评分员效应和偏差模式的研究很少,所得出的结论也不一致。本研究运用多面Rasch模型研究评分员在写作评分中表现的评分员效应,如宽严度、评分一致性等;同时从评分员背景出发,通过Rasch模型的偏差分析,研究不同性别和具有不同评分经验的评分员在评卷过程中针对不同考生、不同评分维度所表现出的偏颇模式,并通过访谈深入具体的对评分过程进行定性分析,更进一步探讨评分员性别和评分经验背景是否为产生评分系统误差的根源。本研究通过一次课堂写作测验,经批改网收集了 137份英语作文(7份用于写作评分培训,130份用于实际数据分析),并邀请7位评分员进行评分。7位评分员在经过统一的评分培训后,运用同一个写作评分分项量表对130篇作文进行了评阅。该量表包含任务完成度、词汇、句法和衔接与连贯四个不同的维度。本研究将7位评分员根据其性别和评分经验的不同分为不同评分组别,运用Rasch模型对其评分结果进行了深入细致的研究和分析,得出以下结论:1)七位评分员在评分过程中表现出显著严厉度差异,或多或少显示出随机效应;评分员均呈现出良好的评分员间信度,除一位评分员外,其他评分员均表现出良好的自身一致性;未表现出显著的趋中效应;2)不同性别评分员表现出评分差异。男性评分员相比女性评分员评分更为宽松,呈现出更高的评分一致性,但更容易产生集中趋势;女性评分员评分更容易出现随机效应,也更容易产生评分偏颇;3)不同性别评分员在与不同能力考生之间以及与不同评分维度之间产生不同的偏颇模式,但差异并不显著,故性别因素不会引入系统性误差。4)不同评分经验评分员表现出评分差异。中手及老手评分员相比新手评分员评分更为宽松,呈现出更高的评分一致性,但更容易产生集中趋势;新手评分员更容易出现随机效应,也更容易出现评分偏颇;5)不同评分经验评分员在与不同能力考生之间以及与不同评分维度之间产生不同的偏颇模式,差异显著,呈现出系统的评分偏颇模式,即老手评分员对考生产生更为宽松的偏颇模式,新手呈现更严厉的偏颇模式;老手评分员对句法等语法类维度呈现严厉偏颇模式,新手对任务完成等内容相关维度呈现严厉偏颇模式。经卡方检验,差异显著,故评分经验会引入系统误差;根据评分员的具体评分表现,本研究对如何提高并改善评分信度和评分质量提出具体、有效的建议;根据不同背景评分员对于评分标准的使用分析,可以为评分员的选用和评分员培训提供有价值的反馈信息;根据评分员与评分量表的使用与偏颇分析,直观地反馈了评分量表本身及使用过程中的问题与适用性,可用于帮助改进和补充评分标准;根据评分员对作文文本的不同侧重,也可对写作教学提供教学建议。同时,也证明多面Rasch模型可作为写作测试及其他语言应用测试的评分质量监控和评估的有力工具。
其他文献
随着可再生能源的快速发展,截至2018年底我国风光累计并网装机已经达到3.58亿千瓦,但由于可再生能源自身发电特性导致其发电量增长缓慢,弃风弃光压力依旧存在。同时,2018年并网的可再生能源补贴缺口超过1200亿元,国家财政与社会消纳压力不断增加。单纯的依靠可再生能源补贴和技术进步难以实现可再生能源的大规模消纳,必须通过市场化手段调动全社会的消纳潜力,才能进一步加快可再生能源的发展。2019年5月
电力资源是维持社会发展及人们日常生活的重要资源,是整个国民经济的命脉。随着市场经济的不断发展,新一轮电力体制改革已经启动,电力市场化交易大力推进。供电公司作为传统市场垄断的典型案例,也同样受到了来自社会、来自行业和来自消费者的各方面压力。因此,我国的供电公司已经开始进行市场化的改革,将以新的服务和销售理念来为消费者提供电力产品。在实践中我们发现,供电公司新的销售方式为供电公司所带来的帮助和提升是显
小麦穗粒数多少受小花育性及其内源激素变化的影响,外源激素对小花发育的调控受国内外专家的极大关注。本文瞄准小花发育的关键时段-可孕小花败育时期,于2017-2019年在河南农
电网级储能技术是促进可再生能源大规模并网消纳与增强电网调峰能力的有效手段。压缩空气储能技术被认为是一种具有电力系统推广价值的大容量储能技术。然而,传统的压缩空气储能需要燃气补燃,系统的循环效率偏低,一直得不到广泛推广。近年来,等温压缩空气储能技术因非补燃、系统理论效率高的优点,得到越来越多的关注。本文主要研究一种基于等温压缩空气储能原理的液控压缩空气储能(Hydraulic Compressed
随着我国电网建设规模的不断扩大,特别是长距离特高压输电线路的建设,出现了越来越多的跨江、跨河、甚至跨海大跨越工程。大跨越工程导线挂点更高、档距更大、张力更大、钢芯数目增多,与普通档距的输电导线差异明显,导致微风振动问题面临更加严峻的形势,目前的风振响应分析方法和防风振设计方法,难以满足工程需要。有针对性地开展大跨越输电线路防风振方案的技术研究,提供高效、实用的防振设计方法,对于确保大跨越工程的安全
市值管理一般是指上市公司管理层等在进行经营管理决策时充分考虑其股价市值的重要性,并以对公司市值表现影响作为衡量其决策合理性的依据,减少资本市场对公司市值的偏误,最
马克思在《序言》中指出:“不是人的社会意识决定社会存在,而是社会存在决定人们的精神生活和政治生活领域。”生态女权主义诞生于20世纪70年代,是当代环境保护运动与女权主
目的:本课题通过观察对比补中益气汤配合脐灸与单纯运用西药长松(聚乙二醇4000散剂)治疗中风后气虚型便秘患者的临床疗效,同时对比两组在便秘和中医证候方面各单项评分,客观评价在临床疗效方面两种治疗方案之间的差异,为临床工作中应用补中益气汤配合脐灸这种治疗方法提供研究依据。方法:选取60例符合纳入标准受试者,按照随机数字表法分为补中益气汤配合脐灸组(治疗组)30例和西药长松组(对照组)30例。治疗组运
目的:通过对民国前鼻鼽中医外治法文献的搜集,总结其取穴、用药规律。方法:以第五版《中华医典》[1]为检索源,搜集本病外治法文献并建立数据库,利用软件 Microsoft Office Excel2016、SPSS Modeler18.0 进行汇总分析。结果:涉及医籍93部,条文1081条,外治法8种,针灸处方715个,药物外治处方366个。使用穴位66个,使用频次前五位的是上星、风府、迎香、合谷、
大陆法系民事上诉程序中普遍存在着附带上诉制度,德国、法国、日本以及我国台湾地区的民事诉讼法都对此制度进行了规定,虽然具体规定存在差异,但是在民事诉讼实践中都发挥了