论文部分内容阅读
摘 要: 完形填空是英语专业四级考试的一种题型,其目的是测量考生的综合语言知识和技能。自2004年新大纲实施以来,完形填空在题量上发生了变化,由原来的15个空增至20个空。但它是否就具有较高的信度?本文采用复本测试法对两篇新版英语专业四级考试完形填空的信度进行了检验。从试验的结果来看,这两篇英语专业四级考试完形填空的信度仍有待提高。
关键词: 英语专业四级 考试完形填空 信度
作为应用语言学的一个分支学科,语言测试学现已发展成为一个相对独立的学科。其中作为评价英语学习者学习水平的英语测试在语言测试界和社会上都发挥着重要的作用。作为大规模标准化英语测试——英语专业四级考试(TEM4)的一种题型,完形填空通过学生掌握的语音、词汇、语法等知识考查学生生成、理解句子乃至语篇的综合能力,其评分为客观评分,因而信度一般而言会较高。但由于信度会受到很多因素的影响,因此,对信度的考查也就成了测量界关注的焦点之一。本文对两套新版TEM4完形填空试题进行了信度的检验,从检验结果来看,这两篇英语专业四级考试完形填空的信度仍有待提高。
一、完形填空简介
完形填空测试又称填词测试,它经历了一段短暂而丰富的历史。完形填空的研究始于1953年,由泰勒引进,其目的是为了检验一个测试的可读性和试题的难度。但是在不到三年的时间里泰勒就提议:完型测试可以用于测试被试的阅读理解能力和综合语言水平。此后完形填空测试也被第二语言学习者和外语学习者所接受。20世纪60年代早期,完形填空除了检验被试的阅读理解能力和试题的可读性外,还被广泛地用于测试听力、口语和综合英语技能(纪春,2001)。我国自1978年在MET考试中首次采用此题型后,国内的大型考试,如EPT、CET、TEM等均广泛采用这种题型。完形填空几乎成为我国外语考试的必考题型之一。其中TEM4作为英语专业基础阶段教学的导向,属于我国外语测试中的一级测试,在评估英语专业学生的基础能力水平中占有不可替代的地位。
现在,完形填空不仅用于分班测试和诊断测试,而且用于水平测试。其目的是通过从语篇线索中提供最佳选项,从而检测被试对混乱的篇章进行编码的能力。
完形填空的出题方法一般有两种:随机法和系统法。随机法就是从一篇特定的文章中随机性地删词,然后被试把原有的词归位。系统法是机械性地固定删词。一些测试者呼吁删词率要与所删词的长度一致。其删词率通常在5—10个词语之间,广泛采用的删词率是每隔5—7个单词就删掉一个词。但是如果在开始的几句中删词率是7个单词的话,其余的部分也要沿用这种方法(Heaton,1988)。另外,选用的完形填空的材料难度要与被试的水平相当。
二、信度检验方法
信度也称可靠性、一致性。即使测量的场合、测量工具、测量对象本身发生变化而进行重复测量时,也能获得类似的结果(Henning,1987)。信度关心的是在测试中被试的能力水平在多大程度上是由误差造成的,其检验方法一般包括逻辑分析和实证研究(Bachman,1990)。它可分为:
1.重复测试法
重复测试法也称再测信度,是用同一份试卷对同一批被试施测两次,两次施测之间有一段间隔时间,两次测试结果的相关系数就是该考试的信度。重复测试法实际上是对受试者信度的测量,因为它所反应的是被试在不同场合语言行为的一致性程度。然而用这种方法评估测试信度容易受到一些其他因素的影响,如:如何选择适宜的时间间隔;被试的动力、记忆力、精神状态是否一致;两次施测的环境是否相同等。
2.复本测试法
复本测试法可以避免重复测试法由于人为因素带来的一些弊端,其施测过程与重复测试法大致相同。唯一不同的是使用两套或多套试卷,这两套或多套试卷在题型题量、难度等方面都一致。复本测试法常用于大型的标准化考试,因为它不仅可以测试被试的语言能力,而且可测评同一类考试试题之间的一致性程度。然而,复本测试最大的缺点是无法编制两套各方面都完全相同的试卷。
3.对半测试法
对半测试法评估试题内部的一致性程度,这种方法避免了重复测试和复本测试法因施考两次所带来的一些问题。它只需一份试卷,而且只需测试一次。对半测试法是把一份试卷分成相等的两半,通常试题编号奇数的为一组,偶数的为另一组,然后计算这两组试卷之间的相关性,之后再用spearman-brown公式进行校正。对半测试法虽然避免了两次施测所带来的不便,但是同一份试卷如果折半的方法不同,得出的信度也就会有所不同。
4.评分者信度
评分者信度也是评估语言测试信度不可忽略的一个重要因素。但评分者信度不同于上述几种测试信度,它主要是相对于试卷中的主观题评分而言的。
上述几种方法虽然都可用来评估测试的信度,但它们的着眼点不尽相同。因此使用哪种方法取决于研究者的目的,各种信度的意义和用途,以及测试的类型,等等(黄永红,2006)。
三、实验设计
1.实验目的
本研究用复本测试的方法检测两篇TEM4-2005和TEM4-2008完形填空的信度,并尽可能地分析本研究中测验误差的因素。
2.被试
参加本实验的被试是随机抽取的30名英语专业大二学生,他们将于2009年5月参加全国英语专业四级测试,这些被试在年龄、教育背景方面相似,每个被试的能力水平相当。
3.实验材料
两篇用于实验研究的完形填空来源于2005年和2008年的全国英语专业四级考试真题。每篇完形填空大约有260个单词,各删掉了20个词语,被试要求在15分钟内完成一篇完形填空(详见下表)。
四、实验结果及数据分析
由于人工计算比较复杂,我们运用SPSS16.0软件进行了数据处理,所得结果如下表所示:
从表中可以看出,完形填空2的平均分要低于完型填空1,由此可知,完形填空2比完形填空1的难度要大,表中的方差、标准差和难度系数也印证了这点。根据信度公式(1)可以算出两篇完形测试的信度r为0.75。通常情况下,大规模标准化考试的信度应该在0.9以上(张凯,2002)。但从本实验的结果来看,这两篇TEM4完形填空的信度仍有提高的空间。其信度低可能有以下几方面的原因:
1.完形填空试题本身的质量不高
试题本身的质量是影响测试信度的最直接原因。如果测试的内容不是试题研发者最终所期待的,那么它也就不能检测被试的真实水平。例如,高水平学习者可能得到低分,低水平者反而得到高分。这样就会导致测试的信度不高。其次是所选的语言材料,比如文章的难度。对于一组被试来说,过于容易或难的试题都会导致信度不高。这在很大程度上并不是因为研发者的粗心大意,而是由于试题的难度不适合被试的能力水平。本实验中的两篇完形填空的难度分别是0.46和0.42,而大规模的标准化考试的难度应该在0.5左右。从难度系数来说,第二篇完形填空偏难了些,同一组被试在做第二篇完形填空时能力水平差异也较大。
2.试题的长度
试题的长度就是题数,在本实验中指所删掉的词语的数量,它也可以在很大程度上影响测试的信度。试题的长度与测试的信度成正比。也就是说,题目越多,测试的信度就会越高。例如:一个测试有20个题目,信度是0.75。如果要得到0.9的信度,我们就可以用下面的公式计算出应该增加多少个题目(张凯,2002)。
rc是测试所期望得到的信度值;ri是测试现有的信度值;k是要达到所期望的信度时测试应该具备的长度。按照该理论,我们把各个数据带入公式(2)中,得到k=3。也就是说,要使测试达到0.9的信度,该测试的题数应该是现有题数的3倍,或者说还应该增加40个题目才能达到0.9的信度。
2004年后,TEM4完形填空的删词量由15个增至20个(高等学校外语专业教学指导委员英语组四级考试大纲修定小组,2004),这就是提高测试信度的一个标志,也让我们有理由相信现存的20个删词量还有可能没有达到一个较高的信度。对于这一点,我们还需在将来作进一步研究。
3.被试
测试的低信度还有可能是由被试引起的。例如:(1)我们在本实验中选用的样本为30人,可能不够大。(2)由于本实验不是真正的TEM4考试,被试的对待态度和积极性可能都不太高。(3)被试的水平同质性太高。前面我们介绍过,参加本实验的被试水平没有太大差异,再加上最近几年,我校英语专业学生的英语水平在TEM4考试中都呈上升趋势。比如,2008年我校TEM4通过率为80.16%,高于全国高校平均通过率20%。因此,同质性如此高、差异性不大的被试能力水平当然会导致本次实验的信度不高。
4.评分
评分是确保信度的最后一个环节,也是非常重要的影响信度的因素。虽说本实验属于客观评分,评分员不需要接受培训,但在评分过程中,如果评分员不够细心,没有足够的耐心和责任心,或者说评分员没有认真对待此次评分,这些都会影响到本实验的信度。
五、结语
信度是测试必备的条件之一。如果一个测验不受试题、被试、评分员和测验环境等诸多因素的影响,它对同一组被试的重复测试结果应该是一样的。但由于种种原因,这种高信度的测试实际上是不存在的。本文基于语言测试的信度理论对英语专业四级考试完形填空的信度作了一次实证研究,研究结果符合测试信度理论的假设。我们也希望语言测试研发者能不断地完善测试质量,并且能更好地将语言测试应用于教学,对教学产生良好的反作用。
参考文献:
[1]Bachman,Lyle,F.Fundamental Considerations in Language Testing[M].Oxford:Oxford University Press,1990.
[2]Heaton,J.B.Writing English Language Teats[M].北京:外语教学与研究出版社,1988.
[3]Henning,G.A Guide to Language Testing:Development,Evaluation and Research[M].北京:外语教学与研究出版社,1987.
[4]高等学校外语专业教学指导委员英语组四级考试大纲修定小组.高等英语专业四级大纲[M].上海:上海外语教育出版社,2004.
[5]黄永红.英语专业四级口语测试的信度与效度[J].外语研究,2006,(3).
[6]纪春.完形填空的效度研究[J].外语研究与教学,2001,(8).
[7]王孝玲.教育测量[M].上海:华东师范大学出版社,2004.
[8]胥云.The Study of Open Cloze as a Testing Format[M].北京:北京师范大学出版社,2005.
[9]张凯.语言测验理论与实践[M].北京:北京语言文化大学出版社,2002.
关键词: 英语专业四级 考试完形填空 信度
作为应用语言学的一个分支学科,语言测试学现已发展成为一个相对独立的学科。其中作为评价英语学习者学习水平的英语测试在语言测试界和社会上都发挥着重要的作用。作为大规模标准化英语测试——英语专业四级考试(TEM4)的一种题型,完形填空通过学生掌握的语音、词汇、语法等知识考查学生生成、理解句子乃至语篇的综合能力,其评分为客观评分,因而信度一般而言会较高。但由于信度会受到很多因素的影响,因此,对信度的考查也就成了测量界关注的焦点之一。本文对两套新版TEM4完形填空试题进行了信度的检验,从检验结果来看,这两篇英语专业四级考试完形填空的信度仍有待提高。
一、完形填空简介
完形填空测试又称填词测试,它经历了一段短暂而丰富的历史。完形填空的研究始于1953年,由泰勒引进,其目的是为了检验一个测试的可读性和试题的难度。但是在不到三年的时间里泰勒就提议:完型测试可以用于测试被试的阅读理解能力和综合语言水平。此后完形填空测试也被第二语言学习者和外语学习者所接受。20世纪60年代早期,完形填空除了检验被试的阅读理解能力和试题的可读性外,还被广泛地用于测试听力、口语和综合英语技能(纪春,2001)。我国自1978年在MET考试中首次采用此题型后,国内的大型考试,如EPT、CET、TEM等均广泛采用这种题型。完形填空几乎成为我国外语考试的必考题型之一。其中TEM4作为英语专业基础阶段教学的导向,属于我国外语测试中的一级测试,在评估英语专业学生的基础能力水平中占有不可替代的地位。
现在,完形填空不仅用于分班测试和诊断测试,而且用于水平测试。其目的是通过从语篇线索中提供最佳选项,从而检测被试对混乱的篇章进行编码的能力。
完形填空的出题方法一般有两种:随机法和系统法。随机法就是从一篇特定的文章中随机性地删词,然后被试把原有的词归位。系统法是机械性地固定删词。一些测试者呼吁删词率要与所删词的长度一致。其删词率通常在5—10个词语之间,广泛采用的删词率是每隔5—7个单词就删掉一个词。但是如果在开始的几句中删词率是7个单词的话,其余的部分也要沿用这种方法(Heaton,1988)。另外,选用的完形填空的材料难度要与被试的水平相当。
二、信度检验方法
信度也称可靠性、一致性。即使测量的场合、测量工具、测量对象本身发生变化而进行重复测量时,也能获得类似的结果(Henning,1987)。信度关心的是在测试中被试的能力水平在多大程度上是由误差造成的,其检验方法一般包括逻辑分析和实证研究(Bachman,1990)。它可分为:
1.重复测试法
重复测试法也称再测信度,是用同一份试卷对同一批被试施测两次,两次施测之间有一段间隔时间,两次测试结果的相关系数就是该考试的信度。重复测试法实际上是对受试者信度的测量,因为它所反应的是被试在不同场合语言行为的一致性程度。然而用这种方法评估测试信度容易受到一些其他因素的影响,如:如何选择适宜的时间间隔;被试的动力、记忆力、精神状态是否一致;两次施测的环境是否相同等。
2.复本测试法
复本测试法可以避免重复测试法由于人为因素带来的一些弊端,其施测过程与重复测试法大致相同。唯一不同的是使用两套或多套试卷,这两套或多套试卷在题型题量、难度等方面都一致。复本测试法常用于大型的标准化考试,因为它不仅可以测试被试的语言能力,而且可测评同一类考试试题之间的一致性程度。然而,复本测试最大的缺点是无法编制两套各方面都完全相同的试卷。
3.对半测试法
对半测试法评估试题内部的一致性程度,这种方法避免了重复测试和复本测试法因施考两次所带来的一些问题。它只需一份试卷,而且只需测试一次。对半测试法是把一份试卷分成相等的两半,通常试题编号奇数的为一组,偶数的为另一组,然后计算这两组试卷之间的相关性,之后再用spearman-brown公式进行校正。对半测试法虽然避免了两次施测所带来的不便,但是同一份试卷如果折半的方法不同,得出的信度也就会有所不同。
4.评分者信度
评分者信度也是评估语言测试信度不可忽略的一个重要因素。但评分者信度不同于上述几种测试信度,它主要是相对于试卷中的主观题评分而言的。
上述几种方法虽然都可用来评估测试的信度,但它们的着眼点不尽相同。因此使用哪种方法取决于研究者的目的,各种信度的意义和用途,以及测试的类型,等等(黄永红,2006)。
三、实验设计
1.实验目的
本研究用复本测试的方法检测两篇TEM4-2005和TEM4-2008完形填空的信度,并尽可能地分析本研究中测验误差的因素。
2.被试
参加本实验的被试是随机抽取的30名英语专业大二学生,他们将于2009年5月参加全国英语专业四级测试,这些被试在年龄、教育背景方面相似,每个被试的能力水平相当。
3.实验材料
两篇用于实验研究的完形填空来源于2005年和2008年的全国英语专业四级考试真题。每篇完形填空大约有260个单词,各删掉了20个词语,被试要求在15分钟内完成一篇完形填空(详见下表)。
四、实验结果及数据分析
由于人工计算比较复杂,我们运用SPSS16.0软件进行了数据处理,所得结果如下表所示:
从表中可以看出,完形填空2的平均分要低于完型填空1,由此可知,完形填空2比完形填空1的难度要大,表中的方差、标准差和难度系数也印证了这点。根据信度公式(1)可以算出两篇完形测试的信度r为0.75。通常情况下,大规模标准化考试的信度应该在0.9以上(张凯,2002)。但从本实验的结果来看,这两篇TEM4完形填空的信度仍有提高的空间。其信度低可能有以下几方面的原因:
1.完形填空试题本身的质量不高
试题本身的质量是影响测试信度的最直接原因。如果测试的内容不是试题研发者最终所期待的,那么它也就不能检测被试的真实水平。例如,高水平学习者可能得到低分,低水平者反而得到高分。这样就会导致测试的信度不高。其次是所选的语言材料,比如文章的难度。对于一组被试来说,过于容易或难的试题都会导致信度不高。这在很大程度上并不是因为研发者的粗心大意,而是由于试题的难度不适合被试的能力水平。本实验中的两篇完形填空的难度分别是0.46和0.42,而大规模的标准化考试的难度应该在0.5左右。从难度系数来说,第二篇完形填空偏难了些,同一组被试在做第二篇完形填空时能力水平差异也较大。
2.试题的长度
试题的长度就是题数,在本实验中指所删掉的词语的数量,它也可以在很大程度上影响测试的信度。试题的长度与测试的信度成正比。也就是说,题目越多,测试的信度就会越高。例如:一个测试有20个题目,信度是0.75。如果要得到0.9的信度,我们就可以用下面的公式计算出应该增加多少个题目(张凯,2002)。
rc是测试所期望得到的信度值;ri是测试现有的信度值;k是要达到所期望的信度时测试应该具备的长度。按照该理论,我们把各个数据带入公式(2)中,得到k=3。也就是说,要使测试达到0.9的信度,该测试的题数应该是现有题数的3倍,或者说还应该增加40个题目才能达到0.9的信度。
2004年后,TEM4完形填空的删词量由15个增至20个(高等学校外语专业教学指导委员英语组四级考试大纲修定小组,2004),这就是提高测试信度的一个标志,也让我们有理由相信现存的20个删词量还有可能没有达到一个较高的信度。对于这一点,我们还需在将来作进一步研究。
3.被试
测试的低信度还有可能是由被试引起的。例如:(1)我们在本实验中选用的样本为30人,可能不够大。(2)由于本实验不是真正的TEM4考试,被试的对待态度和积极性可能都不太高。(3)被试的水平同质性太高。前面我们介绍过,参加本实验的被试水平没有太大差异,再加上最近几年,我校英语专业学生的英语水平在TEM4考试中都呈上升趋势。比如,2008年我校TEM4通过率为80.16%,高于全国高校平均通过率20%。因此,同质性如此高、差异性不大的被试能力水平当然会导致本次实验的信度不高。
4.评分
评分是确保信度的最后一个环节,也是非常重要的影响信度的因素。虽说本实验属于客观评分,评分员不需要接受培训,但在评分过程中,如果评分员不够细心,没有足够的耐心和责任心,或者说评分员没有认真对待此次评分,这些都会影响到本实验的信度。
五、结语
信度是测试必备的条件之一。如果一个测验不受试题、被试、评分员和测验环境等诸多因素的影响,它对同一组被试的重复测试结果应该是一样的。但由于种种原因,这种高信度的测试实际上是不存在的。本文基于语言测试的信度理论对英语专业四级考试完形填空的信度作了一次实证研究,研究结果符合测试信度理论的假设。我们也希望语言测试研发者能不断地完善测试质量,并且能更好地将语言测试应用于教学,对教学产生良好的反作用。
参考文献:
[1]Bachman,Lyle,F.Fundamental Considerations in Language Testing[M].Oxford:Oxford University Press,1990.
[2]Heaton,J.B.Writing English Language Teats[M].北京:外语教学与研究出版社,1988.
[3]Henning,G.A Guide to Language Testing:Development,Evaluation and Research[M].北京:外语教学与研究出版社,1987.
[4]高等学校外语专业教学指导委员英语组四级考试大纲修定小组.高等英语专业四级大纲[M].上海:上海外语教育出版社,2004.
[5]黄永红.英语专业四级口语测试的信度与效度[J].外语研究,2006,(3).
[6]纪春.完形填空的效度研究[J].外语研究与教学,2001,(8).
[7]王孝玲.教育测量[M].上海:华东师范大学出版社,2004.
[8]胥云.The Study of Open Cloze as a Testing Format[M].北京:北京师范大学出版社,2005.
[9]张凯.语言测验理论与实践[M].北京:北京语言文化大学出版社,2002.