论文部分内容阅读
摘 要:信度和效度是语言测试理论中的两个重要概念,因为它们是衡量语言测试质量的重要依据。大学英语考试最近一次大规模改革已过去三年,但是国内对新题型的信度和效度研究才刚起步。本文通过实验,用定性和定量的方法对新大学英语六级考试听力测试的信度和效度进行了研究。研究结果表明新大学英语六级考试听力测试的外部信度较高而内部信度较改革前有下滑;内容效度较改革前没有提高而标准相关效度较高。
关键词:新大学英语六级;听力测试;信度;效度
[中图分类号]H319. 3
[文献标识码]A
[文章编号]1006-2831(2008)12-0130-5
1. 引言
信度和效度是语言测试理论中的两个重要概念,因为它们是衡量语言测试质量的重要依据。信度是指测试结果的一致性和稳定性(Brown, 2005: 175),而效度指多大程度上测试了想要测试的内容(Henning, 1987: 89)。考试效度(validity)是衡量考试质量最重要的标准,是考试最基本的出发点(金艳,2006: 66)。随着语言测试理论的发展,现在普遍认为效度比信度更重要,信度是效度的必要不充分条件。国内外的大规模语言考试(例如:美国的托福考试和我国的大学英语四、六级考试)都做了很多的信度、效度研究,为提高考试质量和进行相应改革提供了有利的理论基础。
蒋显菊(2007:94)在分析近十年来我国外语核心期刊上发表的语言测试相关论文后发现,基于逻辑分析的论文偏多,而实证研究虽然有上升趋势但还是偏少,特别是采用定性和定量方法的实证文章更少。我国的大学英语四、六级考试作为一门高风险的考试,历来是公众讨论和学术研究的热点。然而笔者通过中国知网检索发现,自2005年大学英语四、六级考试改革以来,新大学英语四、六级考试的信度和效度研究只是刚刚起步。本文以新大学英语六级考试和托福考试为研究对象,对47名在校非英语专业大学生进行测试并将所得数据进行定性和定量的分析,对新大学英语六级考试听力测试的信度和效度进行深入研究并试图回答以下三个问题:
1)新大学英语六级考试听力测试是否和改革前一样具有较高信度?
2)较改革前,新大学英语六级考试听力测试是否提高了内容效度?
3)新大学英语六级考试听力测试是否具有较高标准相关效度?
2. 研究方法及数据收集
本研究的研究对象是50名在校大学生(有效47名),他们都参加并通过了大学英语四级考试,其中大部分同学还将在毕业前参加托福或雅思考试。本研究的工具是新大学英语六级听力测试和托福听力测试。在一个星期内对这些同学分别进行新大学英语六级听力测试和托福听力测试,然后将所得各项数据输入Microsoft Excel和 SPSS进行相关分析。
3. 研究结果和分析
3.1 信度
信度包括外部信度和内部信度,其中外部信度可用再测信度(Test-retest reliability)和副本信度(Equivalent-forms reliability)进行检测(秦晓晴,2004:74-75)。而内部信度有三种方法可以检验测试的信度,分别是:折半信度(Split-half method),赫龙巴切公式(Cronbach Alpha)以及库德·理查德森公式(Kuder-Richardson Formula)。
本研究用再测信度(Test-retest reliability)检测新大学英语六级听力测试的外部信度。通过把学生两次参加2007年12月新大学英语六级考试的听力成绩输入Microsoft Excel和SPSS进行相关系数分析,结果如图所示:
从图1我们可以看出,学生两次测试的成绩散点基本上是在x轴和y轴中间45度线上分布的,说明两次成绩相关较高,这在表1中也得到了证实。通过SPSS计算两次成绩的皮尔森相关系数,结果为:r=0.74,即:新大学英语六级听力测试再测信度为0.74。刘润清(1999:177)指出相关系数在0.65-0.85之间可以进行群体预示和个体预示,并且结果比较准确。换而言之,新大学英语六级听力测试外部信度稳定在0.74,这是比较高的。
本研究在检测新大学英语六级听力测试外部信度之外,同时还通过库德·理查德森公式(Kuder-Richardson Formula)检测了其内部信度。库德·理查德森公式是通过计算同一次考试的内部一致性而得出整个考试的内部信度的方法。其公式为:
其中:K是测试中的题目数量,Si2是各学生每一题目的得分方差,St2是各学生听力总分方差。
通过统计分析,得出结果:K-R20=0.79。杨惠中(1998:159)用同样的方式得出的结果为:K-R20=0.85。从数值来看,前者比后者低了0.06,这也反映了新大学英语六级听力测试内部信度比旧版六级听力测试内部信度稍有下降。其原因应该是杨惠中研究时(1995-1998年)大学英语六级考试听力测试全都是多项选择题,当时还没有复合式听写这样的主观题,因而内部信度稍高。而新六级听力测试增加了复合式听写,因而内部信度稍微下降了。
3.2 效度
3.2.1 内容效度
效度衡量测试质量的核心指标。按照不同的角度,效度可分为:表面效度(Face Validity)、内容效度(Content Validity)、结构效度(Construct Validity)、同期效度(Concurrent Validity)、预示效度(Predicative Validity)、标准相关效度(Criterion-related Validity)等等。由于篇幅有限,本文只检测了新大学英语六级考试听力测试的内容效度(Content Validity)和标准相关效度(Criterion-related Validity)。内容效度顾名思义,指的是测试的内容上是否有效,即考试是否考了应该考的东西。对于大学英语六级考试听力测试来说,它应该考的是《全国大学英语六级考试大纲》里面对听力测试的考试考点要求,因此,我们把已经使用过的新大学英语六级考试听力测试真题和《大纲》进行对比,即可以检验它的内容效度。《大纲》规定的大学英语六级考试考核的语言技能及要求:
听力理解部分考核学生获取口头信息的能力,包括理解主旨大意、重要事实和细节、隐含意义,判断话语的交际功能、说话人的观点、态度等。听力理解部分考核的技能是:
A 理解中心思想和重要细节
1) 理解中心思想
2) 听懂重要的或特定的细节
3) 判断说话人的观点、态度等
B 理解隐含的意思
4) 推论隐含的意义
5) 判断话语的交际功能
C 借助语言特征理解听力材料
6) 辨别语音特征,如从连续的话语中辨别语音、理解重音和语音语调等
7) 理解句间关系,如比较、原因、结果、程度、目的等
大学英语六级考试听力理解部分要求考生达到《教学要求》中的较高要求,即“能基本听懂英语国家人士的谈话和讲座,能听懂题材熟悉、篇幅较长的国内英语广播或电视节目,语速为每分钟150词左右,能掌握其中心大意,抓住要点和相关细节。能基本听懂外国专家用英语讲授的专业课程。”
通过对新大学英语六级考试听力测试真题的听力技能分类统计,结果如表2所示:
从表2中可以看出,大部分大纲中规定的听力技能多有涉及,但是还有技能5和7没有被测试过,并且大部分考题是测试技能2和4,即听懂重要的或特定的细节和推论隐含的意义,这个结果和改革前的大学英语六级考试听力测试是一样的(参见杨惠中,1998:95-96),说明这一点还没有改善。另外一点改进了的就是技能1和6考的次数增加了,并且比较固定。这是因为这两种技能测试主要体现在复合式听写里面单词听写和句子大意的理解后听写。
经过对新大学英语六级考试听力测试听力材料的题材和体裁统计分析,结果如表3所示:
表3反映出新大学英语六级考试听力测试听力材料在题材选择上偏重社会文化,占了50%,而体裁选择偏重说明文,占了62.5%。其中记叙文体裁最少,可能是通常认为记叙文应该是三种体裁中最容易的,四级考试中可用一些,六级考试应该少用或不用,但这似乎还有待于进一步论证。题材中的社会科学占一半,这应该是合理的,因为四、六级考试不涉及某一学科知识,对所有专业的考生应当是公平的,不能因为专业原因和对一部分学生有利,对另一部分学生不利。社会文化知识属于所有专业学生应当了解的非专业基本知识。
3.2.2 标准相关效度(Criterion-related Validity)
标准相关效度(Criterion-related Validity)指的是让同一组受试者参加一个有待检验效度的测试和一个已经公认具有很好信度和效度的考试,然后将所得两组成绩进行相关系数计算而得出的效度系数(Brown, 2005: 233)。本研究选择的参照考试是托福考试(Test of English as a Foreign Language),这是因为:首先,托福考试是大型的国际标准化考试,它的信度和效度已得到很好论证(Freedle & Kostin, 1999: 22-23)。因而它符合“已经公认具有很好信度和效度的考试”的标准;其次,新大学英语六级考试听力测试和托福考试都几乎全部使用多项选择题,因而数据采集信度更高,也更利于数据对比;再次,最重要的一点,托福考试听力部分所考的技能和大学英语新六级考试听力测试所考的技能几乎一样(参见Bejar, et al., 2000: 6)。
分别把学生两次参加新大学英语六级考试听力测试和托福听力成绩输入SPSS,得到以下结果:
表4和表5是学生两次分别参加六级真题考试的听力成绩和托福听力成绩的相关系数。通过计算两个数值的平均值:(0.618+0.692)/2=0.66,换而言之,新大学英语六级听力测试的标准相关效度为0.66。这一数据和杨惠中(1998:159)所得的CET-6和STEP Pre-1之间的相关系数几乎相同。这也从侧面证实了新大学英语六级听力测试的标准相关效度还是比较稳定且比较高的。
4. 结论
本次研究对新大学英语六级考试听力测试信度和效度得出以下结论:
1) 新大学英语六级考试听力测试具有较高的外部信度,其值为0.74,而内部信度较改革前稍微有下滑,其值为0.79;
2) 较改革前,新大学英语六级考试听力测试没有明显提高内容效度;
3) 新大学英语六级考试听力测试具有较高标准相关效度。
鉴于以上结论,我们觉得这次大学英语四、六级考试改革并没有根本的变革,只是形式的变化。因此,我们认为为了提高新大学英语六级考试听力测试的信度和效度,必须抓好以下两个方面工作:
1) 新大学英语六级考试听力测试应当适当增加主观题的比例,虽然这样会降低其信度,但是会提高它的效度,两者相比,效度应重于信度;
2) 随着交际语言能力测试的发展,交互式的语言测试越来越受重视。世界两大英语考试托福(TOEFL)和雅思(IELTS)都在大力开发真实语境的交互语言测试。因此,我们建议大学英语四、六级考试听力测试应该切实依据《全国大学英语六级考试大纲》,采用真实语境下的听力材料,例如真实的日常生活学习对话和讨论或电视广播节目,而不应该用刻板的照稿念词的录音材料,只有这样才能真正提高考试的效度。
参考文献
Bejar, I., D. Douglas & J. Jamieson et al. Listening framework: A working paper[R]. Princeton: Educational Testing Service, 2000: 6.
Brown, J. D. Testing in Language Programs: A Comprehensive Guide to English Language Assessment[M]. Beijing: Higher Education Press, 2005: 175, 233.
Freedle, R. & I. Kostin. Does the text matter in a multiple-choice test of comprehension? the case for the construct validity of TOEFL’s minitalks[J]. Language Testing, 1999(2).
Henning, G. A Guide to Language Testing[M]. Cambridge, Massachusetts: Newbury House, 1987: 89.
大学英语四、六级考试官方网站:http://www.cet.edu.cn
教育部高等教育司. 大学英语课程教学要求[Z]. 北京:清华大学出版社,2007.
全国大学英语四、六级考试委员会. 大学英语四级考试大纲2006年修订[M]. 上海:上海外语教育出版社,2006.
金艳. 提高考试效度,改进考试后效——大学英语四六级考试后效研究[J]. 外语界,2006(6):66.
蒋显菊. 国内英语测试研究:十年回顾与展望[J]. 外语界,2007(2):94.
刘润清、胡壮麟. 外语教学中的科研方法[M]. 北京:外语教学与研究出版社,1998:177.
秦晓晴. 外语教学研究中的定量数据分析[M]. 武汉:华中科技大学出版社,2004:74-75.
杨惠中、C. Weir. 大学英语四、六级考试效度研究[M]. 上海:上海外语教育出版社,1998:95-96,159.
关键词:新大学英语六级;听力测试;信度;效度
[中图分类号]H319. 3
[文献标识码]A
[文章编号]1006-2831(2008)12-0130-5
1. 引言
信度和效度是语言测试理论中的两个重要概念,因为它们是衡量语言测试质量的重要依据。信度是指测试结果的一致性和稳定性(Brown, 2005: 175),而效度指多大程度上测试了想要测试的内容(Henning, 1987: 89)。考试效度(validity)是衡量考试质量最重要的标准,是考试最基本的出发点(金艳,2006: 66)。随着语言测试理论的发展,现在普遍认为效度比信度更重要,信度是效度的必要不充分条件。国内外的大规模语言考试(例如:美国的托福考试和我国的大学英语四、六级考试)都做了很多的信度、效度研究,为提高考试质量和进行相应改革提供了有利的理论基础。
蒋显菊(2007:94)在分析近十年来我国外语核心期刊上发表的语言测试相关论文后发现,基于逻辑分析的论文偏多,而实证研究虽然有上升趋势但还是偏少,特别是采用定性和定量方法的实证文章更少。我国的大学英语四、六级考试作为一门高风险的考试,历来是公众讨论和学术研究的热点。然而笔者通过中国知网检索发现,自2005年大学英语四、六级考试改革以来,新大学英语四、六级考试的信度和效度研究只是刚刚起步。本文以新大学英语六级考试和托福考试为研究对象,对47名在校非英语专业大学生进行测试并将所得数据进行定性和定量的分析,对新大学英语六级考试听力测试的信度和效度进行深入研究并试图回答以下三个问题:
1)新大学英语六级考试听力测试是否和改革前一样具有较高信度?
2)较改革前,新大学英语六级考试听力测试是否提高了内容效度?
3)新大学英语六级考试听力测试是否具有较高标准相关效度?
2. 研究方法及数据收集
本研究的研究对象是50名在校大学生(有效47名),他们都参加并通过了大学英语四级考试,其中大部分同学还将在毕业前参加托福或雅思考试。本研究的工具是新大学英语六级听力测试和托福听力测试。在一个星期内对这些同学分别进行新大学英语六级听力测试和托福听力测试,然后将所得各项数据输入Microsoft Excel和 SPSS进行相关分析。
3. 研究结果和分析
3.1 信度
信度包括外部信度和内部信度,其中外部信度可用再测信度(Test-retest reliability)和副本信度(Equivalent-forms reliability)进行检测(秦晓晴,2004:74-75)。而内部信度有三种方法可以检验测试的信度,分别是:折半信度(Split-half method),赫龙巴切公式(Cronbach Alpha)以及库德·理查德森公式(Kuder-Richardson Formula)。
本研究用再测信度(Test-retest reliability)检测新大学英语六级听力测试的外部信度。通过把学生两次参加2007年12月新大学英语六级考试的听力成绩输入Microsoft Excel和SPSS进行相关系数分析,结果如图所示:
从图1我们可以看出,学生两次测试的成绩散点基本上是在x轴和y轴中间45度线上分布的,说明两次成绩相关较高,这在表1中也得到了证实。通过SPSS计算两次成绩的皮尔森相关系数,结果为:r=0.74,即:新大学英语六级听力测试再测信度为0.74。刘润清(1999:177)指出相关系数在0.65-0.85之间可以进行群体预示和个体预示,并且结果比较准确。换而言之,新大学英语六级听力测试外部信度稳定在0.74,这是比较高的。
本研究在检测新大学英语六级听力测试外部信度之外,同时还通过库德·理查德森公式(Kuder-Richardson Formula)检测了其内部信度。库德·理查德森公式是通过计算同一次考试的内部一致性而得出整个考试的内部信度的方法。其公式为:
其中:K是测试中的题目数量,Si2是各学生每一题目的得分方差,St2是各学生听力总分方差。
通过统计分析,得出结果:K-R20=0.79。杨惠中(1998:159)用同样的方式得出的结果为:K-R20=0.85。从数值来看,前者比后者低了0.06,这也反映了新大学英语六级听力测试内部信度比旧版六级听力测试内部信度稍有下降。其原因应该是杨惠中研究时(1995-1998年)大学英语六级考试听力测试全都是多项选择题,当时还没有复合式听写这样的主观题,因而内部信度稍高。而新六级听力测试增加了复合式听写,因而内部信度稍微下降了。
3.2 效度
3.2.1 内容效度
效度衡量测试质量的核心指标。按照不同的角度,效度可分为:表面效度(Face Validity)、内容效度(Content Validity)、结构效度(Construct Validity)、同期效度(Concurrent Validity)、预示效度(Predicative Validity)、标准相关效度(Criterion-related Validity)等等。由于篇幅有限,本文只检测了新大学英语六级考试听力测试的内容效度(Content Validity)和标准相关效度(Criterion-related Validity)。内容效度顾名思义,指的是测试的内容上是否有效,即考试是否考了应该考的东西。对于大学英语六级考试听力测试来说,它应该考的是《全国大学英语六级考试大纲》里面对听力测试的考试考点要求,因此,我们把已经使用过的新大学英语六级考试听力测试真题和《大纲》进行对比,即可以检验它的内容效度。《大纲》规定的大学英语六级考试考核的语言技能及要求:
听力理解部分考核学生获取口头信息的能力,包括理解主旨大意、重要事实和细节、隐含意义,判断话语的交际功能、说话人的观点、态度等。听力理解部分考核的技能是:
A 理解中心思想和重要细节
1) 理解中心思想
2) 听懂重要的或特定的细节
3) 判断说话人的观点、态度等
B 理解隐含的意思
4) 推论隐含的意义
5) 判断话语的交际功能
C 借助语言特征理解听力材料
6) 辨别语音特征,如从连续的话语中辨别语音、理解重音和语音语调等
7) 理解句间关系,如比较、原因、结果、程度、目的等
大学英语六级考试听力理解部分要求考生达到《教学要求》中的较高要求,即“能基本听懂英语国家人士的谈话和讲座,能听懂题材熟悉、篇幅较长的国内英语广播或电视节目,语速为每分钟150词左右,能掌握其中心大意,抓住要点和相关细节。能基本听懂外国专家用英语讲授的专业课程。”
通过对新大学英语六级考试听力测试真题的听力技能分类统计,结果如表2所示:
从表2中可以看出,大部分大纲中规定的听力技能多有涉及,但是还有技能5和7没有被测试过,并且大部分考题是测试技能2和4,即听懂重要的或特定的细节和推论隐含的意义,这个结果和改革前的大学英语六级考试听力测试是一样的(参见杨惠中,1998:95-96),说明这一点还没有改善。另外一点改进了的就是技能1和6考的次数增加了,并且比较固定。这是因为这两种技能测试主要体现在复合式听写里面单词听写和句子大意的理解后听写。
经过对新大学英语六级考试听力测试听力材料的题材和体裁统计分析,结果如表3所示:
表3反映出新大学英语六级考试听力测试听力材料在题材选择上偏重社会文化,占了50%,而体裁选择偏重说明文,占了62.5%。其中记叙文体裁最少,可能是通常认为记叙文应该是三种体裁中最容易的,四级考试中可用一些,六级考试应该少用或不用,但这似乎还有待于进一步论证。题材中的社会科学占一半,这应该是合理的,因为四、六级考试不涉及某一学科知识,对所有专业的考生应当是公平的,不能因为专业原因和对一部分学生有利,对另一部分学生不利。社会文化知识属于所有专业学生应当了解的非专业基本知识。
3.2.2 标准相关效度(Criterion-related Validity)
标准相关效度(Criterion-related Validity)指的是让同一组受试者参加一个有待检验效度的测试和一个已经公认具有很好信度和效度的考试,然后将所得两组成绩进行相关系数计算而得出的效度系数(Brown, 2005: 233)。本研究选择的参照考试是托福考试(Test of English as a Foreign Language),这是因为:首先,托福考试是大型的国际标准化考试,它的信度和效度已得到很好论证(Freedle & Kostin, 1999: 22-23)。因而它符合“已经公认具有很好信度和效度的考试”的标准;其次,新大学英语六级考试听力测试和托福考试都几乎全部使用多项选择题,因而数据采集信度更高,也更利于数据对比;再次,最重要的一点,托福考试听力部分所考的技能和大学英语新六级考试听力测试所考的技能几乎一样(参见Bejar, et al., 2000: 6)。
分别把学生两次参加新大学英语六级考试听力测试和托福听力成绩输入SPSS,得到以下结果:
表4和表5是学生两次分别参加六级真题考试的听力成绩和托福听力成绩的相关系数。通过计算两个数值的平均值:(0.618+0.692)/2=0.66,换而言之,新大学英语六级听力测试的标准相关效度为0.66。这一数据和杨惠中(1998:159)所得的CET-6和STEP Pre-1之间的相关系数几乎相同。这也从侧面证实了新大学英语六级听力测试的标准相关效度还是比较稳定且比较高的。
4. 结论
本次研究对新大学英语六级考试听力测试信度和效度得出以下结论:
1) 新大学英语六级考试听力测试具有较高的外部信度,其值为0.74,而内部信度较改革前稍微有下滑,其值为0.79;
2) 较改革前,新大学英语六级考试听力测试没有明显提高内容效度;
3) 新大学英语六级考试听力测试具有较高标准相关效度。
鉴于以上结论,我们觉得这次大学英语四、六级考试改革并没有根本的变革,只是形式的变化。因此,我们认为为了提高新大学英语六级考试听力测试的信度和效度,必须抓好以下两个方面工作:
1) 新大学英语六级考试听力测试应当适当增加主观题的比例,虽然这样会降低其信度,但是会提高它的效度,两者相比,效度应重于信度;
2) 随着交际语言能力测试的发展,交互式的语言测试越来越受重视。世界两大英语考试托福(TOEFL)和雅思(IELTS)都在大力开发真实语境的交互语言测试。因此,我们建议大学英语四、六级考试听力测试应该切实依据《全国大学英语六级考试大纲》,采用真实语境下的听力材料,例如真实的日常生活学习对话和讨论或电视广播节目,而不应该用刻板的照稿念词的录音材料,只有这样才能真正提高考试的效度。
参考文献
Bejar, I., D. Douglas & J. Jamieson et al. Listening framework: A working paper[R]. Princeton: Educational Testing Service, 2000: 6.
Brown, J. D. Testing in Language Programs: A Comprehensive Guide to English Language Assessment[M]. Beijing: Higher Education Press, 2005: 175, 233.
Freedle, R. & I. Kostin. Does the text matter in a multiple-choice test of comprehension? the case for the construct validity of TOEFL’s minitalks[J]. Language Testing, 1999(2).
Henning, G. A Guide to Language Testing[M]. Cambridge, Massachusetts: Newbury House, 1987: 89.
大学英语四、六级考试官方网站:http://www.cet.edu.cn
教育部高等教育司. 大学英语课程教学要求[Z]. 北京:清华大学出版社,2007.
全国大学英语四、六级考试委员会. 大学英语四级考试大纲2006年修订[M]. 上海:上海外语教育出版社,2006.
金艳. 提高考试效度,改进考试后效——大学英语四六级考试后效研究[J]. 外语界,2006(6):66.
蒋显菊. 国内英语测试研究:十年回顾与展望[J]. 外语界,2007(2):94.
刘润清、胡壮麟. 外语教学中的科研方法[M]. 北京:外语教学与研究出版社,1998:177.
秦晓晴. 外语教学研究中的定量数据分析[M]. 武汉:华中科技大学出版社,2004:74-75.
杨惠中、C. Weir. 大学英语四、六级考试效度研究[M]. 上海:上海外语教育出版社,1998:95-96,159.