浅析英语作文的评分信度

来源 :教育前沿·理论版 | 被引量 : 0次 | 上传用户:qiangchengshimeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:在语言测试中,评分信度指评分员对考生能力作出主观评价的一致性程度,可分为评判内信度和评判间信度;相关性计算是衡量评分信度的常用方法;影响英语作文评分信度的因素众多,统一评分标准及样卷,培训评分员等措施可提高作文评分信度。
  关键词:评分信度 影响因素 提高措施
  中图分类号:G642.3 文献标识码:A文章编号:1673-1875(2009)05-028-01
  
  一、评分信度的概念及常用计算方法
  
   效度(validity)与信度(reliability)是现代语言测试的两个核心要素。简言之,效度指一个测验能测出预定要测量的事物的程度;信度指一个测试的测量结果在多大程度上具有一致性, 如果一个考试在不同的情况下或对不同的人进行都得出同样的结果,那么就说这个考试是可靠的[1]。评分信度是指评分员对考生能力作出主观评价的一致性程度,特别是在评判口语与写作测试时,因为评分员的主观因素致使评分不一致的现象时有发生,可从以下两个方面分析:评判内信度(intra-rater reliability)和评判间信度(inter-rater reliability)。评判内信度是一个评分员两次或更多次对考生的能力所做的主观评定的一致性程度,例如,如果某一评分员在某一时间内对30份作文成绩进行了评分,以后的某个时间内对这30份作文再次进行评分,如果两次评分一致性较高,评分信度就较高。评判间信度是指不同评分员对考生的能力各自作出主观性评价的一致性程度,如果几个评分员使用同一测量语言水平各方面的等级量表来对考生评级,而名次高低大致相同,则该等级量表就可以认为具有高度的评判员间信度。
   基于真分数理论的信度计算方法也适合于评分信度的计算[2],该理论认为:抽象的语言能力是无法精确得知的,只能根据考生的测试分数(observed score)即在某项语言测试中得到的成绩进行估测, 这个测试分数包括真分数(true score)和误差分数(error score)两部分, 真分数归因于考生的真实语言能力,误差分数(error score)归因于真实语言能力之外的其它因素。假如某些考生参加两个平行测试(parallel tests), 即设计衡量同样的技能或者能力的同一测试的两种形式,采用同样的测试方法,并且有同样的长度和难度,分别得到测试分数1和测试分数2,测试分数1包括真分数1和真分数1;测试分数2包括真分数1和误差分数2。对同一考生而言,归因于真实语言能力的真分数1和真分数2应该相等,而归因于真实语言能力之外的其它因素、随机的误差分数1和误差分数2的存在,使测试分数1和测试分数2不可能完全一致,在此情况下,误差分数1和误差分数2的值越小,测试分数1和测试分数2就越接近,越相关,反之,测试分数1和测试分数2越越接近,越相关,说明误差分数1和误差分数2的值越小,测试分数就越能反映真分数,测试的信度就越高,因此,平行测试的信度可以用两个测试分数的相关性表示。在衡量评分信度时,可以将评分员评定分数看做平行测试中的测试分数,也由反映考生某项语言能力的真实分数和因为评分员主观原因造成的误评分数组成,同样的推导过程可以得出:评分信度也可以用评分员评定的分数的相关性表示,例如,评分员甲和评分员乙对相同的30篇作文各自评分,两位评分员所评分数的相关性是0.80或者是更高,就表示评分信度较高。
  
   二、影响英语作文评分信度的因素分析
  
   任何有影响的大范围考试都必须包括产生性运用试题,因为这种试题有极好的反拨效应。在所有各种试题当
  中,它们是唯一能带给教学纯粹正面的、最全面的反拨效应的试题,因而也是任何其他试题所不能取代的, 写作作为一种优良的主观题型,更是出现在几乎所有的现代语言测试中[3]。由于受到阅卷人的生理、心理稳定性、语言能力和水平等不自觉因素的影响,对应考者的书面表达能力的判断与测量往往过于主观,从而导致评分出现偏差,使写作测试分数的信度大大地降低。从实践中看,主要有以下几种情形:
   对同一评分员而言,评判作文时的顺序可能影响评分信度,某一评分员在某一时间内对30分作文进行评分,在刚开始评判前几分作文时并没有太在意语法错误,而只是注重作文的内容与连贯方面,而在继续评阅下面的作文时,发现语法错误非常严重,此时评分员在无意识中会更多的把语法错误作为评分的依据,这样,排在前几份的作文即使语法错误与排在后面的作文一样严重,但得到的分数可能更高。有两个或两个评分员时情况更加复杂,例如分别有评分员甲、评分员乙给同样30篇作文打分,得到的结果可能大不相同,评分员甲可能只是依据语言质量评分,而评分员乙综合依据语言质量、内容、衔接与连贯各方面给分,即使要求两位评分员就同一项指标与语言质量评分,不一致的现象也可能存在,同样一篇作文可能被评分员甲判为9分,而被评分员乙判为5分。即使在统一评分标准的情况下,但由于评分标准本身的设计不够科学,也能使评分的信度降低。此外,目前英语教学实际中的一些客观因素使教师在评定作文时很难做到高信度,在课时量大、需要评分的作文份数多,而又全部依赖教师进行评定,这种情况下,评判教师往往根据自己的主观感觉给作文评分,甚至只是用粗略的方法评判学生作文,例如用A、B、C表示不同等级的方式评判作文,评分信度大为降低,学生很难对自己的写作水平有正确认识。
  
   三、提高作文评分信度的措施
  
   着眼于以上因素,提高英语作文的评分信度必须在选取适当评分方法的基础上优化评分标准及评分量表,规范评分员的评分程序及其行为,加大对评分员的培训,将可能影响阅卷信度的评分员主观因素降到最低。目前英语作文的评分主要由整体评分(holistic scoring)和分项评分(analytic scoring)两种形式,整体评分是将作文作为一个整体而不是几个独立的部分来评定,分项评分是指把参加者在写作任务中的表现分解为不同特征,给每一特征不同的权重值,然后再给每种特征值以分值,写作任务中常用的分解特征包括:内容、组织、连贯、词汇、语法、拼写等,目前的大型英语考试中多采取折中的做法[4]。无论是哪种评分方法,要取得良好的评分信度,都必须建立客观、合理的评分标准及评分量表,并尽量使评分员在适用评分标准时彼此一致,例如在四六级英语作文评分中,将作文分为5个档次,分别为2分,5分,8分,11分,14分,每个档都有分别从内容,语言等方面的描述及样卷,要求评分员根据阅卷标准,对照样卷进行评分,若认为所阅文章与某一分数(如8分)样卷相似,即定位该分数(8分),若认为所阅文章优于或劣于该样卷,则可加1分(9分)或减1分(7分),评分员评分之前要经过严格培训,尽量把相同的评分标准,在不同的时间内公正地应用到对不同作文的评估中。研究发现,四六级作文评分方式的信度较高,获得社会的一致认可,对学校的学期考试具有借鉴作用。
   随着语篇语言学有关的检索(concordancing)、语料库语言学、计算语言学的进展,出现了机器参与阅卷的新技术,机器参与阅卷与以往的人工评估手段相比具有明显优势,例如常用的写作检查系统RightWriter,能兼容多种英文文字处理系统,可在极短的时间内从以英语为母语的人所关心的十个方面共97条标准来分析评价一篇文章,并能提供详尽的分析报告和数据,这些工作是评卷人所无法应付的[5]。也可以采取计算机和人工相结合的方法进行,例如对作文的语言质量可以通过适当软件进行分析,例如通过计算机的相关软件作文的语言质量的相关指标,然后在此基础上人工评定作文的篇章结构和内容方面,通过多个评分员共同打分来避免单人打分所带来的误差[6]。总之,只有在最大程度提高作文的评分信度,才能让学生对自己的写作水平有正确认识,进而提高写作水平。
  
   参考文献:
   [1]Brown,H.D.Principles of Language Learning and Teaching[M].Beijing:Foreign Language Learning and Research Press,2002
   [2]Bachman,L.F.Fundamental considerations in language testing[M].Oxford and New York:Oxford University Press,1990,
   [3]李筱菊.语言测试科学与艺术[M].湖南教育出版社,1997
   [4]潘玮.改进英语写作测试评分方法的研究[J].Sino-US English Teaching,2004,1(7).
   [5]温晋方.英语写作常模测试的高信度评估体系[J].广州大学学报(社会科学版)2003,2:84-89.
   [6]李志雪.如何更加客观合理地给学生作文评分[J].Sino-US English Teaching,2004,1(11).
其他文献
可是随着边坡加陡,边坡不稳定的危险就增大。由于边坡塌落导致要处理额外的废石、延期采矿甚至损失矿石,由加陡边帮得到的经济利益很可能付诸东流。处理这类情况的分析手段
目的调查郑州某医院体检人群的生活方式以及膳食情况,获得该人群主要的膳食模式。探讨该人群主要的膳食模式与肌肉减少症的关系,为预防肌肉减少症提供科学依据。方法以郑州某三甲医院体检中心为调查点,于2018年3月至2019年1月期间以40岁以上的体检人群为目标人群,通过问卷调查,体格测量,身体成分测定等收集研究对象的相关资料。质量控制贯穿整个过程。利用主成分分析建立该人群的主要膳食模式。不同组间的差异采用
从U-learning的发展起因出发,探讨U-learning的特点,在此基础上,根据终身学习的特点,对U-leaming视野下终身学习的特点、方法、体系进行展望.
期刊
近日,国家发改委给各中央新闻 媒体提供的一份推荐采访线索,着实 让早已习惯了政府部门偏爱报喜不愿 报忧“脾气”的编辑、记者们眼前一 亮:这份关于建设节约型社会的宣传 报
摘 要:以“道德价值观取向结构”为理论构想,在半开放式问卷、个别访谈和文献综述的基础上,编制青少年道德价值观问卷。探索性因素分析获得六个因素:集体性、利己性、个人美德、公德、进取性、协调性。分量表间的相关在0.25-0.49之间,分量表与总量表的相关在0.50-0.73之间(因素2除外);问卷的内部一致性系数在0.57-0.86间,再测信度在0.71-0.81间。结果表明问卷具有较好的信度和效度,
摘 要:文章首先界定了通识教育的内涵,指出大学英语作为高等教育的有机组成部分,应体现通识教育的理念,加强整体培养功能。最后提出了在英语教学中实施通识教育的途径是改变目前的课程设置,培养学生语言能力、思辨能力和表达能力。  关键词:大学英语 通识教育 课程设置  中图分类号:G642.3文献标识码:A 文章编号:1673-1875(2009)05-018-02     二十世纪九十年代以来,随着社会
冬虫夏草产于我国西北、西南等高原山地,主要集中在四川、西藏、青海、云南等地。是我国传统的名贵药材之一,它与人参、鹿葺齐名,历来是强身健体、延年益寿的常用补药。由于
摘 要:本文采用文献资料法﹑观察分析法﹑问卷调查法,针对健美操运动员表现力的问题,寻找健美操运动员比赛中影响表现力发挥的因素,总结归纳培养和提高表现力的方法,为健美操训练和比赛提供帮助,从而提高比赛成绩。  关键词:健美操 表现力 影响因素 培养  中图分类号:G831 文献标识码:A 文章编号:1673-1875(2009)05-022-02     健美操是一项美的运动,以其自身的魅力及项目特
摘 要:培养和塑造健康人格既是大学生素质全面发展的内在要求,也是社会发展的时代课题。本文通过对人格的内涵、大学生的健康人格的标准及健康人格与素质教育的关系的分析和探讨,认为高校教育应把课堂教学与大学生的人格培养结合起来,辅以校园文化、社会实践等手段,最终达到培养出人格健康、素质较高的新一代大学生的宏伟目标。   关键词:大学生 人格 素质教育  中图分类号:G641 文献标识码:A文章编号: 16
摘 要:结合当前基础教育改革的现状,从教学内容、教学方式和手段、考核形式和评价等几个方面探讨了高等师范院校大学物理课程的教学改革。  关键词:高等师范院校 大学物理 改革  中图分类号:G642.3 文献标识码:A 文章编号:1673-1875(2009)05-031-02     物理学是研究物质的基本结构、相互作用和运动形态的基本规律的科学,涉及范围非常广泛,其基本理论渗透于自然科学的各个领域