论文部分内容阅读
摘 要:本研究采用随机抽样的方法抽取了1995年和1997年英语专业四级考试中的阅读理解真题,分别编入期中和期末泛读考试题中,对同一组被试进行了测试。统计结果证明英语专业四级考试题在历时方面稳定性不够,并建议英语专业四级考试命题在该方面要有所体现。
关键词:英语专业四级 阅读理解 历时稳定性
1. 引言
教学中的测试是对教学效果和学生学习效果的检验,是教师或教学管理人员对教学采取进一步措施的重要的依据之一,因此它对教学的积极作用是毋庸置疑的。测试学则是研究如何设计考题和实施考试,以准确评价考生的能力,从而为教学管理、人才选拔、教学研究等工作提供最有力的支持。它综合了教育学、心理学、统计测量学和相关专业的知识,是一门实践性较强的交叉性学科。外语教学与研究中也同样少不了测试,研究如何制作外语考题对外语教学与研究有着举足轻重的作用。
国内有较大影响的英语测试主要有:高等教育入学英语考试(即高考MET)、大学英语系列考试(CET-4、 CET-6)、硕士生入学考试、英语专业系列考试(TEM-4、TEM-8)和公共英语等级考试(PETS)。对测试的研究主要从理论和实践两方面进行:理论方面的研究多从宏观的学科理论角度分析考试的基本原理、基本特点、基本作用和基本步骤等,如:陈晓扣和李绍山(2006)对考试的结构效度进行了研究;李绍山(2005)对测试的反拨作用与试题的设计关系作了研究;杨惠中(1999)对测试与教学之间的关系进行了论述;李建达对阅读的测试方式对不同语言能力的学生成绩的影响等。实践方面是针对某类具体的考试或某类考试中某次考试的方方面面进行研究分析,国内研究多集中于此。
国内对外语考试进行的研究分析也多集中于实践方面,主要有两个角度:一是从应试者的角度。主要是通过分析往年试题来把握题目各方面变化规律,以求得掌握未来试题的趋势,从而为考生更有把握应考奠定基础。这种研究多为一些被辅导的应试者所钟爱。二是从出题方的角度。主要是通过分析往年考试结果来总结出题过程的得与失,从而为进一步编制更精确的考题奠定良好的基础。如:邹申(1995)在1994年3月至5月就英语四级、八级考试对部分高校进行了问卷调查;文秋芳和赵学熙(1995)对英语专业四级口语考试的可行性等问题作了研究;文秋芳等(2002)对英语专业八级口语考试的可行性问题作了研究;朱嫣华(1995)和祝平(2005)分别就专业四级、八级标准化、科学实验化及大纲变化作过研究;黄永红(2006)研究分析了英语专业四级口语测试的信度和效度;李晓等(2002)分析了英语专业四、八级考试的意义和存在的必要性;黄家祐(2000)评估了中山大学英语系几年间参加全国英语专业四级和八级统测的表现,分析了统测的结果并认为,这种测试提供的信息有助于改进教学,因而作为一种评估手段是有效的;王海贞(2007)运用评分过程证据对英语专业四级口语考试的效度进行了研究。
当前从出题者角度分析的文章多为针对较短时期内特别是某年或某次试题的分析和研究,如某一年或两年的考试题的分析,如:邹申等(1996)分析了1995年四级和八级考试各题型优点与缺点,各型之间的相关等;陈小扣和李绍山(2006a)研究了英语专业四级考试填空题的结构效度;张喆和罗凯洲(2007)对专业四级考试的反拨作用进行了实证研究。但这一领域极少有通盘对多年考题的稳定性方面进行系统的分析和研究。某一种考题的多年的稳定性也应是其信度的主要表现,就像用一把尺子去量多年考生的英语水平一样,可以使我们对各届考生间英语水平的变化作出精确的判断。如果某类考试这样的特点不够明显或根本未进行考虑,我们就不可能纵向对各届考生作出历时的比较。那么无论是教学或是研究中我们对考生语言水平的发展变化都不可能有较全面准确的了解。
英语考试中阅读测试是不可缺少的组成部分,在其编制过程中有许多可变的因素都会造成考题难度的变化,从而影响到考试题目的信度,如材料的长短、生词量的多少、句子的平均长度和复杂程度、单词的平均长度、阅读材料内容与考生所处的生活环境或文化习俗等的相关程度等。这些影响因素多数是不容易进行控制的,也就是说在各年的考试中阅读题的稳定性是比较难以控制的,它的稳定性可以作为整套题目的稳定性的标志。因此,以阅读理解题作为代表,通过实验做的研究和分析来展示一下某类英语考试中稳定性是可行的,会对试题编制起到不可估量的推动作用。
本研究试图用英语专业四级考试题中的阅读理解题真题作为代表来研究历年英语专业四级考试题在稳定性方面的表现。
2.研究方法
本研究随机抽取历年来英语专业四级真题中的两年阅读题为代表来研究本类考试多年的稳定程度。
2.1研究问题。
(1)两套阅读试题中学生成绩是否相当;
(2)两套阅读试题中学生成绩是否具有较高的相关性。
2.2研究对象。
在本研究中作为被试的是本校2005级英语专业小学教育专科两个班的77名在校学生,其中男生18人,女生59人,平均年龄为21岁。这些学生在初中毕业后均未继续上高中,而是考取本市教育学院招的中等师范的小学教育,因而未系统学习高中英语,英语基础较差。实验进行时在本校上大学专科已经近两年,英语水平接近英语专业四级水平。有多数学生考过了大学英语四级考试,也有个别学生通过了英语专业四级考试。本实验的考试的实施是在本学期各科学习结束时各科进行结业期间进行的。
2.3工具。
(1)英语专业四级考试阅读理解考试真题两份。
本研究从1993至2005年的英语专业四级题中随机抽取了1995年和1997年的完整阅读理解部分分别作为两套泛读考试题中的组成部分并连续对参与被试先后进行了测试。第一次考试在2007年4月20日上午7:30到9:10进行,第二次考试在2007年4月23日上午9:30-11:10进行,一百二十分钟的时间对大多数学生来说都足以完成所有考题。在第一次考试中(2)班有3名学生缺席,第二次考试全到,因此这三位学生的成绩不计在实验结果中。两次考试相隔仅两天,考生不可能在短时间内有能力上的显著变化,因此学生的能力不会对两次测试结果异同产生影响。1995年的考题阅读题由四篇短文后附20个考试阅读理解的小题,1997年的考题也由四篇短文组成,不过文后仅附15个选择题。因此实验将计算出各个学生在每套试题的得分率进行对比。
(2)统计工具。
本研究使用的统计工具为SPSS 15.0统计软件。测试结果均用SPSS软件进行分析处理,因此无人工计算产生误差的机会。
2.4实验数据。
实验统计了各个学生在两次考试的阅读题中答对的题目的个数,并计算出他们的得分率,其描述统计结果显示在表1中:
注:R=Range,Min=Minimum,Max=Maximum,M=Mean,S.D.=Std.Deviation,V=Variance,Skew=Skewness,Kurt=Kurtosis,Stat=Statistic,S.E.=Std.Error,TEM1995=编入期中泛读试题选用的1995年英语专业四级真题的阅读理解题部分,TEM1997=编入期末泛读试题选用的1997年英语专业四级真题的阅读理解题部分。
表中显示:学生在1995年阅读题中的得分率平均为.5701,而在1997年的考题中的得分率平均为.4424。二者之间有一定的差异,但我们不能就此断定二者的差异达到了统计学意义的显著差异。为检验二者之间的差异是否达到了显著水平,实验中对二者进行了成对样本的T检验,检验结果如表2:
表2中显示,计算结果t=6.667,p=0.000<0.05,据此可断定二者的差异达到了显著水平,说明二者间的差异是由于试题本身原因造成的,而非其他偶然因素形成的。
为了进一步考查这两年阅读题之间的关系,本实验又计算了学生在两次考试阅读题中的得分率之间的相关性,其结果如表3:
表中显示,二者之间的相关系数r =.119,而且p = .304 > 0.05, 故二者之间为低度相关,也即如果一个考生在前一次考试中得了高分或低分,他在后一次考试中仍得高分或低分的可能性不太高,换句话说就是两次考试相互对应的程度非常低。还可以说这两年考试中学生考试的成绩之间的可比性较差,如果两个人在这两考试中都得了60分,他们的能力高下之分就难于决断。这就是每年考题难易度不一样造成相互之间的不可比性。
3.结论
通过以上数据分析不难发现,1995和1997年的英语专业四级考试的阅读题之间存在着显著的差异。这种差异性体现在两个方面:一是1997年的阅读题目似乎难度有所增加,因为学生得分率明显下降;二是学生在两套题中的得分相关性较弱。这种差异性的存在就表明二者之间的连贯性或称连续性不强,这种大型考试的较弱的连贯性或连续性就会使教育有关从业人员无法对学生们进行纵向的即历时的比较,至少比较的结果可能信度下降。
4.启示与建议
每一类大型考试不但涉及当年考题的方方面面,还牵涉到这类考试试题多年之间的一致性和连贯性,至少要保持在一定阶段内的稳定。它的调整与改变不能有一点随意性,必须有充分的理由。比如说:考试的目的要求有了较大的改变,考试的范围有了较大的调整,考生整体水平有了较大的变化等。总之,要根据全局范围内的实际情况的需要来变化,要在变化前作充分的调查研究,以做到准确无误。还要在变化实施前做广泛的宣传,使所有考生和考试相关人员完全了解,以免考生感到突然。英语专业四级考试大纲到目前为止先后有两次修订:第一次修订本是在1997的11月出版的,第二次修订本是2004年3月出版的。显然本实验抽取的1995年和1997年的题目应属大纲第一修订前一段的,相互之间理应有较高的一致性,而实际上从试卷上看1997年阅读题目在分值上与1995年已经不同了。本实验证明其难度也有显著的不同,其较大的不对应性也是理所当然的。
参考文献:
[1]文秋芳,吴克明,王文宇,&任裕海.全国英语专业八级口语考试可行性研究[J].外语界2002,(4):67-73.
[2]文秋芳,&赵学熙.英语专业四级口试的可行性研究——总体设计与实施[J].外语界,1995,(1):30-36.
[3]王海贞.基于评分过程证据的英语专业四级口试效度研究[J].解放军外国语学院学报,2007,(4).
[4]朱嫣华.努力实现英语专业四级、八级考试的标准化和科学化[J].外语界,1995,(1):24-29(36).
[5]李晓,廖凤荣,&罗耀光.论英语专业统考与素质教育的关系[J].广西高教研究,2002,(2):73-75.
[6]李绍山.语言测试的反拨作用与语言测试设计[J].外语界,2005,(1):71-75.
[7]祝平.英语专业四、八级考试大纲的新变化[J].外语界,2005,(1):67-70(79).
[8]张喆,&罗凯洲.英语专业四级考试反拨作用实证研究[J].考试研究,2007,(2).
[9]杨惠中.语言测试与语言教学[J].外语界,1999,(1):16-25.
[10]邹申.部分高校英语专业四级、八级考试问卷调查报告[J].外语界,1995,(1):20-23(16).
[11]邹申,陈汉生,&黄素华.1995年高等院校英语专业四级、八级考试分析[J].外语界,1996,(1):55-61.
[12]陈晓扣,&李绍山.TEM-4完型填空测试结构效度研究——答题过程分析法[J].现代外语(季刊),2006a,29(1):71-77.
[13]陈晓扣,&李绍山.谈语言测试的结构效度[J].解放军外国语学院学报,2006b,29(3):45-49.
[14]黄永红.英语专业四级口语测试的信度和效度[J].外语研究,2006,(3):36-38.
[15]黄家祐.英语专业四级、八级测试(TEM4,TEM8)为教学带来的反馈信息[J].中山大学学报论丛,2000,20(6),61-69.
(漳州师范学院科学研究资助项目(项目编号:SS07016)
关键词:英语专业四级 阅读理解 历时稳定性
1. 引言
教学中的测试是对教学效果和学生学习效果的检验,是教师或教学管理人员对教学采取进一步措施的重要的依据之一,因此它对教学的积极作用是毋庸置疑的。测试学则是研究如何设计考题和实施考试,以准确评价考生的能力,从而为教学管理、人才选拔、教学研究等工作提供最有力的支持。它综合了教育学、心理学、统计测量学和相关专业的知识,是一门实践性较强的交叉性学科。外语教学与研究中也同样少不了测试,研究如何制作外语考题对外语教学与研究有着举足轻重的作用。
国内有较大影响的英语测试主要有:高等教育入学英语考试(即高考MET)、大学英语系列考试(CET-4、 CET-6)、硕士生入学考试、英语专业系列考试(TEM-4、TEM-8)和公共英语等级考试(PETS)。对测试的研究主要从理论和实践两方面进行:理论方面的研究多从宏观的学科理论角度分析考试的基本原理、基本特点、基本作用和基本步骤等,如:陈晓扣和李绍山(2006)对考试的结构效度进行了研究;李绍山(2005)对测试的反拨作用与试题的设计关系作了研究;杨惠中(1999)对测试与教学之间的关系进行了论述;李建达对阅读的测试方式对不同语言能力的学生成绩的影响等。实践方面是针对某类具体的考试或某类考试中某次考试的方方面面进行研究分析,国内研究多集中于此。
国内对外语考试进行的研究分析也多集中于实践方面,主要有两个角度:一是从应试者的角度。主要是通过分析往年试题来把握题目各方面变化规律,以求得掌握未来试题的趋势,从而为考生更有把握应考奠定基础。这种研究多为一些被辅导的应试者所钟爱。二是从出题方的角度。主要是通过分析往年考试结果来总结出题过程的得与失,从而为进一步编制更精确的考题奠定良好的基础。如:邹申(1995)在1994年3月至5月就英语四级、八级考试对部分高校进行了问卷调查;文秋芳和赵学熙(1995)对英语专业四级口语考试的可行性等问题作了研究;文秋芳等(2002)对英语专业八级口语考试的可行性问题作了研究;朱嫣华(1995)和祝平(2005)分别就专业四级、八级标准化、科学实验化及大纲变化作过研究;黄永红(2006)研究分析了英语专业四级口语测试的信度和效度;李晓等(2002)分析了英语专业四、八级考试的意义和存在的必要性;黄家祐(2000)评估了中山大学英语系几年间参加全国英语专业四级和八级统测的表现,分析了统测的结果并认为,这种测试提供的信息有助于改进教学,因而作为一种评估手段是有效的;王海贞(2007)运用评分过程证据对英语专业四级口语考试的效度进行了研究。
当前从出题者角度分析的文章多为针对较短时期内特别是某年或某次试题的分析和研究,如某一年或两年的考试题的分析,如:邹申等(1996)分析了1995年四级和八级考试各题型优点与缺点,各型之间的相关等;陈小扣和李绍山(2006a)研究了英语专业四级考试填空题的结构效度;张喆和罗凯洲(2007)对专业四级考试的反拨作用进行了实证研究。但这一领域极少有通盘对多年考题的稳定性方面进行系统的分析和研究。某一种考题的多年的稳定性也应是其信度的主要表现,就像用一把尺子去量多年考生的英语水平一样,可以使我们对各届考生间英语水平的变化作出精确的判断。如果某类考试这样的特点不够明显或根本未进行考虑,我们就不可能纵向对各届考生作出历时的比较。那么无论是教学或是研究中我们对考生语言水平的发展变化都不可能有较全面准确的了解。
英语考试中阅读测试是不可缺少的组成部分,在其编制过程中有许多可变的因素都会造成考题难度的变化,从而影响到考试题目的信度,如材料的长短、生词量的多少、句子的平均长度和复杂程度、单词的平均长度、阅读材料内容与考生所处的生活环境或文化习俗等的相关程度等。这些影响因素多数是不容易进行控制的,也就是说在各年的考试中阅读题的稳定性是比较难以控制的,它的稳定性可以作为整套题目的稳定性的标志。因此,以阅读理解题作为代表,通过实验做的研究和分析来展示一下某类英语考试中稳定性是可行的,会对试题编制起到不可估量的推动作用。
本研究试图用英语专业四级考试题中的阅读理解题真题作为代表来研究历年英语专业四级考试题在稳定性方面的表现。
2.研究方法
本研究随机抽取历年来英语专业四级真题中的两年阅读题为代表来研究本类考试多年的稳定程度。
2.1研究问题。
(1)两套阅读试题中学生成绩是否相当;
(2)两套阅读试题中学生成绩是否具有较高的相关性。
2.2研究对象。
在本研究中作为被试的是本校2005级英语专业小学教育专科两个班的77名在校学生,其中男生18人,女生59人,平均年龄为21岁。这些学生在初中毕业后均未继续上高中,而是考取本市教育学院招的中等师范的小学教育,因而未系统学习高中英语,英语基础较差。实验进行时在本校上大学专科已经近两年,英语水平接近英语专业四级水平。有多数学生考过了大学英语四级考试,也有个别学生通过了英语专业四级考试。本实验的考试的实施是在本学期各科学习结束时各科进行结业期间进行的。
2.3工具。
(1)英语专业四级考试阅读理解考试真题两份。
本研究从1993至2005年的英语专业四级题中随机抽取了1995年和1997年的完整阅读理解部分分别作为两套泛读考试题中的组成部分并连续对参与被试先后进行了测试。第一次考试在2007年4月20日上午7:30到9:10进行,第二次考试在2007年4月23日上午9:30-11:10进行,一百二十分钟的时间对大多数学生来说都足以完成所有考题。在第一次考试中(2)班有3名学生缺席,第二次考试全到,因此这三位学生的成绩不计在实验结果中。两次考试相隔仅两天,考生不可能在短时间内有能力上的显著变化,因此学生的能力不会对两次测试结果异同产生影响。1995年的考题阅读题由四篇短文后附20个考试阅读理解的小题,1997年的考题也由四篇短文组成,不过文后仅附15个选择题。因此实验将计算出各个学生在每套试题的得分率进行对比。
(2)统计工具。
本研究使用的统计工具为SPSS 15.0统计软件。测试结果均用SPSS软件进行分析处理,因此无人工计算产生误差的机会。
2.4实验数据。
实验统计了各个学生在两次考试的阅读题中答对的题目的个数,并计算出他们的得分率,其描述统计结果显示在表1中:
注:R=Range,Min=Minimum,Max=Maximum,M=Mean,S.D.=Std.Deviation,V=Variance,Skew=Skewness,Kurt=Kurtosis,Stat=Statistic,S.E.=Std.Error,TEM1995=编入期中泛读试题选用的1995年英语专业四级真题的阅读理解题部分,TEM1997=编入期末泛读试题选用的1997年英语专业四级真题的阅读理解题部分。
表中显示:学生在1995年阅读题中的得分率平均为.5701,而在1997年的考题中的得分率平均为.4424。二者之间有一定的差异,但我们不能就此断定二者的差异达到了统计学意义的显著差异。为检验二者之间的差异是否达到了显著水平,实验中对二者进行了成对样本的T检验,检验结果如表2:
表2中显示,计算结果t=6.667,p=0.000<0.05,据此可断定二者的差异达到了显著水平,说明二者间的差异是由于试题本身原因造成的,而非其他偶然因素形成的。
为了进一步考查这两年阅读题之间的关系,本实验又计算了学生在两次考试阅读题中的得分率之间的相关性,其结果如表3:
表中显示,二者之间的相关系数r =.119,而且p = .304 > 0.05, 故二者之间为低度相关,也即如果一个考生在前一次考试中得了高分或低分,他在后一次考试中仍得高分或低分的可能性不太高,换句话说就是两次考试相互对应的程度非常低。还可以说这两年考试中学生考试的成绩之间的可比性较差,如果两个人在这两考试中都得了60分,他们的能力高下之分就难于决断。这就是每年考题难易度不一样造成相互之间的不可比性。
3.结论
通过以上数据分析不难发现,1995和1997年的英语专业四级考试的阅读题之间存在着显著的差异。这种差异性体现在两个方面:一是1997年的阅读题目似乎难度有所增加,因为学生得分率明显下降;二是学生在两套题中的得分相关性较弱。这种差异性的存在就表明二者之间的连贯性或称连续性不强,这种大型考试的较弱的连贯性或连续性就会使教育有关从业人员无法对学生们进行纵向的即历时的比较,至少比较的结果可能信度下降。
4.启示与建议
每一类大型考试不但涉及当年考题的方方面面,还牵涉到这类考试试题多年之间的一致性和连贯性,至少要保持在一定阶段内的稳定。它的调整与改变不能有一点随意性,必须有充分的理由。比如说:考试的目的要求有了较大的改变,考试的范围有了较大的调整,考生整体水平有了较大的变化等。总之,要根据全局范围内的实际情况的需要来变化,要在变化前作充分的调查研究,以做到准确无误。还要在变化实施前做广泛的宣传,使所有考生和考试相关人员完全了解,以免考生感到突然。英语专业四级考试大纲到目前为止先后有两次修订:第一次修订本是在1997的11月出版的,第二次修订本是2004年3月出版的。显然本实验抽取的1995年和1997年的题目应属大纲第一修订前一段的,相互之间理应有较高的一致性,而实际上从试卷上看1997年阅读题目在分值上与1995年已经不同了。本实验证明其难度也有显著的不同,其较大的不对应性也是理所当然的。
参考文献:
[1]文秋芳,吴克明,王文宇,&任裕海.全国英语专业八级口语考试可行性研究[J].外语界2002,(4):67-73.
[2]文秋芳,&赵学熙.英语专业四级口试的可行性研究——总体设计与实施[J].外语界,1995,(1):30-36.
[3]王海贞.基于评分过程证据的英语专业四级口试效度研究[J].解放军外国语学院学报,2007,(4).
[4]朱嫣华.努力实现英语专业四级、八级考试的标准化和科学化[J].外语界,1995,(1):24-29(36).
[5]李晓,廖凤荣,&罗耀光.论英语专业统考与素质教育的关系[J].广西高教研究,2002,(2):73-75.
[6]李绍山.语言测试的反拨作用与语言测试设计[J].外语界,2005,(1):71-75.
[7]祝平.英语专业四、八级考试大纲的新变化[J].外语界,2005,(1):67-70(79).
[8]张喆,&罗凯洲.英语专业四级考试反拨作用实证研究[J].考试研究,2007,(2).
[9]杨惠中.语言测试与语言教学[J].外语界,1999,(1):16-25.
[10]邹申.部分高校英语专业四级、八级考试问卷调查报告[J].外语界,1995,(1):20-23(16).
[11]邹申,陈汉生,&黄素华.1995年高等院校英语专业四级、八级考试分析[J].外语界,1996,(1):55-61.
[12]陈晓扣,&李绍山.TEM-4完型填空测试结构效度研究——答题过程分析法[J].现代外语(季刊),2006a,29(1):71-77.
[13]陈晓扣,&李绍山.谈语言测试的结构效度[J].解放军外国语学院学报,2006b,29(3):45-49.
[14]黄永红.英语专业四级口语测试的信度和效度[J].外语研究,2006,(3):36-38.
[15]黄家祐.英语专业四级、八级测试(TEM4,TEM8)为教学带来的反馈信息[J].中山大学学报论丛,2000,20(6),61-69.
(漳州师范学院科学研究资助项目(项目编号:SS07016)