网阅环境下的英语专业四级考试作文评分员偏颇研究

被引量 : 6次 | 上传用户:LIUCHANGQI2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机辅助阅卷逐渐成为当今阅卷主要方式的背景下,2009年英语专业四级考试作文评阅经历了两项重大改革。改革之一是评阅方式由纸笔评阅(简称纸阅)改为计算机辅助评阅(简称网阅);改革之二是作文评分标准由整体评分法改为分项评分法。作为TEM 4网阅评分效度研究的一个重要组成部分,对TEM 4作文评分员行为,尤其是评分员偏颇的研究十分必要。该项研究将能够为TEM 4作文评分员的培训提供有力的理论依据和实践模式。研究的深远意义还在于提高作文评分的质量监控,维护如TEM 4这样的大规模、高风险测试的公正性。与网阅环境下英语专业四级考试作文评分员偏颇研究密切相关的以往研究包括英语作为二语写作测试研究、作文评分员行为研究、作文评分员偏颇研究、作文评分员培训研究、以及国内外大规模标准考试作文网上评阅的研究。这些研究方面的成果和理论形成了本研究的理论依据。以往研究显示,ESL写作测试由间接测试发展到以培养语言交际能力为目的的直接测试。ESL写作测试评阅因测试目的不同而采用不同的评分量表(整体评分法、分项评分法、主要特点评分法)。ESL写作测试长期以来依靠人工评阅,不免带来评分员的主观因素,产生评分员效应。近年来开发的计算机辅助阅卷有助于探测和降低由评分员而起的评分误差。作文评分员的评分误差被公认为是“世界性”和“世纪性”的难题。对误差本质的认识由单纯的关注评分信度到观察评分的信度和效度。对揭示误差源的研究由单纯的关注评分结果到全面调查评分的各个环节(考生能力、评分量表、评分模式、评阅环境、评分员行为、评分时段、评分员培训等)。对评分员行为的研究更是呈现全方位,从交互作用的视角对影响评分员的各个刻面入手,深刻地揭示评分员在评分过程中产生的偏颇。科技的发展,尤其是统计学领域和信息技术领域的发展(例如FACETS统计软件)为研究这种偏颇提供了便捷。评分员培训一向被认为是保证评阅质量的有效途径。但是对培训效果的研究产生了不同的结论。对评分员偏颇的研究给评分员培训提供了许多启示。计算机辅助阅卷的开发亦给评分员培训展现了有利的发展空间。网阅环境下的英语专业四级考试作文评分员偏颇研究旨在利用网阅环境提供的评分详细数据,从评分员与评分环节交互作用的视角全面和深刻地探讨英语专业四级考试作文评分员偏颇的模式和产生根源,以期探索更有效的作文评分员培训模式。本研究的研究方案由两个部分组成。第一部分观察2009年5月开展的计算机辅助人工阅卷(网阅),了解参加此次阅卷的TEM 4作文评分员对新实施的网阅评分模式的看法,分析他们对网阅培训模式的态度。第二部分观察英语专业四级考试作文评分员偏颇的模式和探询偏颇产生的根源。本次研究设计的基本理念是结合以文献资料研究为特征的二手研究和以实证研究为特征的一手研究。实证研究包括基本属于定性研究性质的问卷调查和定量研究性质的评阅数据抽样调查。对参加2009年TEM 4作文评分员(70位)的问卷调查结果显示,TEM 4作文评分员都拥有高等英语教育背景、高等英语教学背景,以及相关的大型标准考试英语作文评阅背景。TEM 4作文评分员对网阅有比较高的评价,对网阅培训也评价颇高。2009年11月进行的对比实验显示,网阅模式下TEM 4作文评阅有一定的优势,体现在增强区分考生能力、减少评分员总体严厉度的差异、增强评分员自身内部一致性、以及减少评分员偏颇四个方面。对10位2009年TEM 4作文评分员的评阅数据抽样调查统计结果显示,网阅环境下TEM 4作文评阅在考生刻面、评分员刻面、评分项目刻面体现出显著的的评分差异。网阅环境下作文评分员与多刻面产生交互作用,主要表现为评分员对评分子项目和对考生的偏颇。对网阅环境下TEM 4作文评分员偏颇的探讨揭示,部分TEM 4作文评分员针对评分子项目和考生表现出显著偏颇。就偏颇的程度而论,相比较之下,评分员对写作规范评分项目的偏颇最大,对语言运用能力评分项目的偏颇次之,对内容和表达评分项目的偏颇最小。对于考生而言,评分员往往对能力估计值比较高和比较低的考生表现明显的偏颇,即能力估计值处于两极的考生比较容易“吸引”评分员的偏颇。就偏颇的方向而论,在与评分项目的交互作用中,评分员不是一味地严厉,或一味地宽松,而是往往不自觉地采用“补偿”策略,即对一种评分项目过于严厉后再对另一种评分项目过于宽松。在与考生的交互作用中,评分员似乎往往对能力估计值较高的考生比较严厉。评分员表现出的如此偏颇与他/她们的背景有一定的关联,其中与教学背景和英语作文评阅背景具有比较明显的相关性。对15位2009年TEM 4作文评分员的培训评阅数据抽样调查显示,网阅环境下TEM 4作文评分员的培训具有一定的效果,体现在减少评分员总体宽松/严厉度差异和偏颇程度方面。但是FACETS偏颇分析统计揭示,培训的效果显得有限,体现在评分员宽松/严厉度差异仍然显著,对评分项目,尤其是写作规范评分项目的偏颇程度也仍然显著。评分员在接受评分反馈意见后产生的“求稳”心态在一定程度上加剧了评分趋中的倾向。提升培训效果显得十分必要。本研究建议采取基于评分员偏颇分析的培训模式提升培训质量。首先需要加强持续培训的力度,培训活动的设计需要更加具有互动性和针对性,培训的反馈信息需要更加详细,尤其是需要包括有关评分员偏颇的反馈信息。同时,培训的设计还须注意更加科学合理地选择用于培训的样本试卷,尽量使用分项法评分量表,建立更加详细的评分员档案,将评分员英语教学和作文评阅背景纳入评分员培训的设计范围,采取定向培训。
其他文献
从目前的软件行业来看,其发展存在着很大的机会同时也面临着诸多挑战。很难说软件行业在未来的发展中会是什么样子,未来发展中存在着很多不确定因素,有制约着其发展的,也有促
在以美国为代表的西方政治、法制观念中,新闻自由是民主赖以生存的根本,其生命力在于客观地报道事实,而不管此事实是否为政府所愿意披露。但是,每个国家都有因涉及国家安全和
目的制备复方黄芩温敏凝胶,并建立了温敏凝胶中黄芩苷含量测定的质量标准。方法以泊洛沙姆作为凝胶材料,考察含有不同泊洛沙姆407(Pluronic F127)和泊洛沙姆188(Pluronic F68
所有权保留买卖是随着信用经济的繁荣发展而产生,并冈其程序简单、交易便捷和成本较低的特点,逐渐成为市场交易主体青睐的对象。各国各地区如英荚法德日以及我国台湾地区等的立
<正>全面深化公安改革,要坚持问题导向,以制约公安工作发展的瓶颈问题为改革的切入点和突破口。当前制约公安工作发展的瓶颈问题是,与市场经济体制相适应反映公安工作运行规
<正> 会展业被视为21世纪的朝阳产业,它所产生的巨大经济效益和社会效益,正在经济社会生活中日益显现。青岛作为中国沿海开放城市和著名旅游,拥有发展会展业的独特优势和条件
经济全球化时代的到来,更加凸显了英语国际通用语言的地位。英语作为一种语言的意义和功能也在发生转变。就国家而言,一国英语水平的提高,可以扩大对外合作与交流机会;就个人
生活化大众化既是社会主义核心价值观的理论内核,也是社会主义核心价值观的实践路径。目前社会主义核心价值观生活化大众化中还存在一些问题和困难。推进社会主义核心价值观
在现行的播音主持教育和业务运用中,固定印象认为广播电视的播音主持可以涵盖、替代舞台艺术主持,这是一个重大缺失。其实舞台艺术主持有如下功能的承载:一是话语内容创新,二是艺