论文部分内容阅读
摘 要:回顾近二十年来语言测试研究的六大新动向,并在此基础上讨论了语言测试领域内一些值得关注的问题,以及发展中必须面对的挑战。
关键词:第二语言 语言测试研究 新动向
中图分类号:G4 文献标识码:A 文章编号:1673-9795(2014)01(a)-0056-04
韓宝成[1]认为语言测试的发展大致经历了,以教什么就测什么为特征的前科学语言测试阶段;强调标准化和客观化的心理测量学—结构主义阶段[13];强调单一语言能力和提倡综合测试法的社会语言学阶段[14];以及80年代以后流行的以测试语言运用能力为目标的交际语言测试阶段(Carroll 1980;Bachman 1990;Bachman&Palmer 1996)。
1990年被认为是语言测试发展的一个分水岭[15],因为在这一年,语言测试领域发生了几件重大的事件。首先,第12届国际语言测试研讨会在美国旧金山召开,会议的主题是“语言测试新的10年:协作与合作”。其次,在新加坡召开了主题为“语言测试和项目评估”的研讨会,会上许多学者就80年代语言测试的发展与存在的问题展开了讨论。这两次会议还讨论了成立国际语言测试协会(International Language Testing Association)的问题。这一年还出版了一些很重要的关于语言测试的学术论著,其中包括Bachman的《语言测试要略》(Fundamental Consideration in Language Testing),Davies的《语言测试原理》(Principle of Language Testing),以及Weir的《交际语言测试》(Communicative Language Testing),这些论著对后来的语言测试研究和发展起了非常重要的作用。
Chapelle&Douglas[16]于1990年预测语言测试研究在90年代可能会集中在以下一些方面:交际能力与语言测试之间的关系;语言测试自然和伦理方面的研究;对考试分数的解释;对考试的效度的研究。
杨满珍[2]在对1990年至1999年间的语言测试研讨会和公开发表或出版的有关语言测试的论文或论著进行了统计和总结后,谈道:20世纪最后10年国外语言测试的研究主要集中在以下一些方面:(1)交际语言测试;(2)信度和效度;(3)语言测试的社会作用;(4)影响考生发挥的因素;(5)做事测试(performance test);(6)计算机化测试;(7)与二语习得的关系。
此后的几年里,语言测试的动向是否像Chapelle&Douglas所预测的那样,还是延续了杨满珍所总结的七大研究焦点。哪些方面依然是焦点,又有什么新的研究热点出现,这是广大研究者所关注的。
1 语言测试新动向
根据近二十年来国内外语言测试研究者(以国内为主)在理论和实践方面的新的尝试,总结了下面的六大动向。
1.1 计算机化自适应性语言测试(Computerized Adaptive Language Test)(下称CALT)
计算机化自适应性语言测试源于计算机化自适应性测试(Computerized Adaptive Test)(下称CAT),又译为计算机化调适性测试,是一种技术上受计算机终端和PC管理的先进的测试语言能力的方法。从题库中选取符合受测者语言水平的题目进行测试,迅速准确地估计受测者的语言能力,直到达到预定的测试精度(即标准误)要求,即可结束考试。
陈冰冰[3]在《引领外语测试新方向—— 计算机化调适性语言测试》一文中提到,计算机技术的发展不仅影响了外语教与学的整个过程,而且也使得语言测试的技术手段和载体发生了革命性的变化。2001年在美国举行的第23届国际语言测试研讨会的主题就是“语言测试与技术”,基于计算机技术所构建的测试新方法—计算机化调适性语言测试,成了此次会议的主要议题。计算机化调适性语言测试由于其因材施测、能精确估计考生能力及节省施测时间等显著的优点,正逐步渗透到各类外语测试中去,引领着外语测试发展的新方向。
CALT是现代化教育技术改变测试手段的新方向,世界上许多很有影响的国际性英语考试也正在全面推行CALT。1998年以来,GRE普通测试由传统的纸笔测试全面改为CALT;东软在线凯思考试(Compute
rized Assessment System for English Communication)结合日本顶级教育产品和服务提供商旺文社(OBUNSHA)教育集团的经验开发的CALT系统已经广泛应用于企业、学校和政府,成为评价国际职业英语能力的标准。
目前,对于计算机化自适应性语言测试的研究正朝着纵深方向发展,研究者们各辟蹊径,跨学科研究引起越来越多的研究者的关注。
(1)基于Web的自适应性考试。
郑珂,申瑞民[4]在《基于Web的自适应考试系统》一文中介绍了计算机化自适应考试(Computerized Adaptive Test)的基本理论和过程,更重要的是提出了一个基于Web自适应考试系统的框架。计算机网络技术的发展和自适应考试理论的日渐成熟使得基于Web的自适应考试系统成为现实。
王路江[5]在世界汉语大会上介绍了中国汉语水平考试的改革与发展。为了提高考试和阅卷的效率,北京语言大学汉语水平考试中心正筹备开发基于项目反应理论的计算机自适应考试;为了提高主观阅卷的效率,还将开发网上阅卷和计算机自动阅卷程序;提高HSK的服务水平,加强考试的安全性,建立汉语水平考试的“网络平台”势在必行。因为它的作用不仅在于推广,更重要的是使测试依靠现代技术和理念支持,通过方便快捷的网络平台的搭建,能更直接地服务于考生。
(2)认知计算机适应性考试模型。 何莲珍[6]在研究认知科学与语言测试的关系及各种CAT模型的基础上,运用项目反映的双参数模型设计了一个包括阅读、词汇语法、完形填空的双阶认知计算机适应性考试模型(CCAT),并作了实验,实验结果显示:这种测试方式不仅提高了测试的效率,而且提高了测试的精确度,与传统的纸笔测试相比有无可比擬的优越性。这是国内语言测试研究者将认知科学与语言测试相结合的一次有益的尝试,为我们的语言测试研究提供了一个新的视角。
(3)个性化自适应性考试模型。
曾用强[7]根据自信心与测试行为之间关系的研究成果,提出了一个个性化自适应性测试模式,并与适应性测试和自适应性测试作了对比分析。结果表明:①个性化的自适应性测试模式由于引入自信心作为调整项目难度的指标,可以进一步提高测试的适应性程度;②其能力估算方法比项目反应理论中的极大似然值估算法更先进;③使语言测试不仅在项目难度上,而且在认知心理上适应于受试的个性特征,使语言测试过程更具个性。该文把语言测试与二语习得研究结合起来,探索一种机助的个性化测试模式,以引起研究者对语言测试的个性化和适应性的关注。
1.2 基于计算机语料库的语言测试
肖依虎、潘翠琼[8]立足于语料库与语言测试的内涵,阐述了语料库应用于语言测试的理性认识,分析了基于计算机的语料库应用于语言测试的必要性,可能性,其利用过程中的优势和局限性,以及语料库在语言测试上应用的前景。
TOEFL和GRE就是语料库应用于语言测试的最典型、最成功的例证。这两种测试在实践上说明了语料库用于语言测试的可能性。
语料库在语言测试中的应用,也为保证语言测试的真实性提供了技术支持。
1.3 语言测试的真实性
20世纪70年代,随着交际教学法的出现,Widdowson[17]提出了语言教学的真实性问题。80和90年代,随着语言交际测试法的出现,Morrow[19]和Bachman[18]等人提出了语言测试的真实性问题。此后真实性问题成为语言测试的一个热门话题,语言教学和测试界的学人为此进行了广泛探讨。语言测试方面的权威学术期刊《语言测试》专门出了一期特刊(1985/6)来讨论这个问题。Morrow[19]认为“真实性问题是语言测试的一个重要方面”。Wood[20]认为,“语言测试的两个主要问题,效度与信度,可以归结为真实与不真实一个问题”;Bachman&Palmer[21]认为真实性是语言测试的一个重要特征。
黄大勇[9]从文本的真实性、任务的真实性、输出的真实性和情景的真实性等四个方面对语言测试的真实性概念进行解析,并指出真实性的两个重要特征:真实性的主观性和相对性。为语言测试的设计开发者科学地把握真实性提供了一定的依据。
目前国内外有影响的语言测试,由于语料库技术的支持,在文本的真实性方面基本能保证,但其他三方面的真实性体现的水平则参差不齐。四、六级考试与托福的听力题类似,基本上全是多项选择的形式,正确答案实际上已经给出,考生要做的只是把这个正确答案挑出来。这样的考题是脱离现实的,因为在日常生活中人们听别人讲话并试图理解其话语的意思的时候,不可能给你A、B、C、D以供选择呢?比如有人打电话来让,要找的人不在,你得记留言,你要做的就是用笔记录下来这个号码和信息,而不可能是在几个现成的选项中进行选择。而雅思(IEL TS)的试题较贴近真实的生活场景。尽管雅思也有一部分听力题是多项选择的形式,但其比例不大,既不是惟一题型,也不是主流题型;应对雅思听力考试,考生要做的除了圈定自己认为正确的答案外,还要拼写出自己认为正确的答案,听考题和答题是同时进行的,只有拼写出正确的英文单词和答案,才能拿到高分。
当前,国内语言测试界需要下大力气研究的是任务的真实性,而这一点可以借鉴当前的另一热点,即任务型语言测试的研究成果。
1.4 任务型语言测试(Task-based Language Assessment,以下简称TBLA)
近十年来语言教学研究的热点是任务型教学,相关的教材和教学模式方面的研究成果层出不穷,相比之下,测试领域的研究有些滞后,但也逐渐成为测试领域的研究热点。2000年在加拿大温哥华召开的第22届国际语言测试研讨会,其中一个主题就是“Putting tasks to the test”。Language Testing于2002年第4期出专刊讨论基于任务的语言测试,这足以说明TBLA受到关切的程度。
韩宝成[1]在《语言测试的新进展:基于任务的语言测试》一文中,介绍了基于任务的语言测试的发展情况,对TBLA出现的背景及其面临的基本问题进行了分析和探讨。并指出与以语言形式或技能为重点的传统语言测试不同的是,基于任务的语言测试是以任务为核心,测试所要评定的是应试者完成任务的表现。在重交际、重表达教学思想影响下发展起来的“直接测试”或称“行为测试(performance test)”,通常是由经过培训的考官直接观察应试者完成任务的行为,采用整体评估方式,按照一个综合语言水平量表给应试者确定级别。与此不同,在基于任务的教学基础上发展起来的测试,既不考核应试者对语言知识的掌握程度,亦不对其语言水平评定等级,而是考察他们能否使用语言完成目标任务。
在测试与评估的环节上,任务型教学途径秉承了交际教学思想的原则,通过考察学生完成任务的过程来测试和评估学生实际的语言运用能力。Ellis[22]认为,任务型测试和评估的设计应该能够诱导和评价学习者在以意义为中心、并有明确交际目的的语言使用环境下的交际行为。与传统测试相比,任务型测试与评估呈现出以下几个变化:一是测试内容的变化;二是测试形式的变化;三是测试目的的变化;四是测试结果的变化。
Ellis[22]区分了传统测试与任务型测试中的“任务”,认为任务型测试中的“任务”特指“能够用来诱导和评价学习者在意义至上、目标明确的语境中交际操作行为的设计”。Ellis还对测试结果的评估提出三种形式,即直接评价法、篇章分析法和客观等级法。 1.5 测试的内容和形式的改革
分离式测试(Discrete Tests),这一代表心理测量-结构主义阶段的特征的测试方式,是过去几十年来各大语言测试的主要测试方式,也曾引领语言测试走上了科学化的道路。分离式测试考查的是受试者孤立的语言知识和语言技能(包括听、说、读、写)。并認为,各考查项之和就是对受试者语言能力的全面评价。分离式测试注重微观的语言知识和语言技能,一般采用多项选择的题型,所以它具有可随机采样,量大面广,评分客观,可解释得分等提高测试信度的优点。但是,它自身也有缺陷,那就是,分离的语言知识不等于语言运用的能力,不能真实地反映出语言交际的能力,即得高分者其语用能力不一定高,也就是测试的内容效度较低。由于对分离式测试的批评越来越多,国内外的许多有影响力的考试都开始重新采用部分综合性试题,来弥补单一的分离式测试的不足,以此来追求信度和效度的最佳平衡,正应证了一句古语“分久必合”。
客观多项选择题型是语言测试史上第二阶段的产物,虽然曾经风靡全球,但也存在不少弊端。测试专家Alderson[23]说:“有证据表明,参加多项选择考试的学生能够学会一些应试技巧,如猜测正确答案、排除毫无意义的干扰项、避免选择两个意义相近的选择项等,使自己的分数‘人工地’提高许多”。另一位测试专家Hughes[24]给多项选择题型列了六大弊端:(1)只考识别能力,所以不能准确测量应试者的水平;(2)分数中的猜测成分可以很大而且不好确定;(3)严重限制了什么能考、什么不能考;(4)设计出好的项目极为困难;(5)反拨作用往往不好—— 准备这种考试不是提高语言水平的最佳途径;(6)考生作弊容易。现在仍使用多项选择题型的所谓标准化测试还很多,例如美国著名的TOEFL(托福)和国内的大学英语四、六级考试但也已开始进行改革,在逐步加大主观性试题的比例。
2006年5月登陆中国的新托福由四部分组成,分别是阅读(Reading)、听力(Listening)、
口试(Speaking)、写作(Writing)。新托福考察更加全面,各项技能相互渗透,并且题量明显增加。说到考察更加全面,我们知道旧托福考试只考听和读,说由TSE考,写由TWE考。口语TSE考试,在过去的考试里面一直属于可以选择性的考试,而现在的新托福里面进入了必考内容。再有一点,客观题走向了主观题的趋势,如语法取消了,语法很大程度代表了客观题的选择。还有我们讲到各项技能相互渗透方面,从出题的形式上更加灵活了,口语写作都是各个技能互相渗透的,比如口语部分,它先让你阅读,然后再听、然后再说,写作也是这样的,让你阅读、听、写。这样的话,读、听、说和读、听、写相互渗透,更加接近生活,更加接近北美大学的生活。
大学英语四、六级改革则是近几年国内语言测试界的热门话题。1996年以前,四级考试中客观题占85%,六级占75%左右。为了改变客观题比重过大的问题,考试委员会于1995年和1996年两次公布了拟采用的新题型,适当增加了主观题的比例,1999年开始举行口语考试。从2005年起,大学英语四、六级考试加大了听力理解部分的题量和比例,增加快速阅读理解测试,增加非选择性试题的比例。试点阶段的四、六级考试由四部分构成:听力理解、阅读理解、综合测试和写作测试。听力理解部分的比例提高到35%,其中听力对话占15%,听力短文占20%。听力对话部分包括短对话和长对话的听力理解;听力短文部分包括短文听写和选择题型的短文理解;听力题材选用对话、讲座、广播电视节目等更具真实性的材料。阅读理解部分比例调整为35%,其中仔细阅读部分(careful reading)占25%,快速阅读部分(fast reading)占10%。仔细阅读部分除测试篇章阅读理解外,还包括对篇章语境中的词汇理解的测试;快速阅读部分测试各种快速阅读技能。综合测试比例为15%,由两部分构成。第一部分为完型填空或改错,占10%;第二部分为短句问答或翻译,占5%。写作能力测试部分比例为15%,体裁包括议论文、说明文、应用文等。
没有口语考试的语言水平或能力考试算不上全面的语言测试,其效度难以保证,语言如果不用说来测,那么这将是一种语言测试最大的遗憾。
1.6 评分制度的改革
评分制度的改革也是语言测试发展的一个新亮点。科学的评分制度和分数报告体制对正确地理解和解释分数以及科学地决策至关重要。
新托福网考(IBT)总分数为120分,每部分为30分。美国各名校对托福考试最低分数的要求由550改为80分。以下是ETS官方网站公布的新旧分数换算表(见表1)。
四、六级改革所采取的另一重要举措也是改革计分体制和成绩报道方式。改革前的英语四、六级考试分为合格和不合格,只有合格者才能拿到合格证书。自2005年6月考试起,四、六级考试成绩将采用满分为710分的计分体制,考试成绩在290~710分之间,呈正态分布,均值是500分,一个标准差在70分,成绩低可以到290分,高可以到710分。不设及格线,成绩报道方式由考试合格证书改为成绩报告单,即考后向每位考生发放成绩报告单,报道内容包括:总分、单项分等。为使学校理解考试分数的含义并根据各校的实际情况合理使用考试测量的结果,四、六级考试委员会将向学校提供四、六级考试分数的解释。
2 结语
在发展的道路上,机遇与挑战同在,许多问题还有待进一步探讨和研究:
(1)CALT考试在国内要推广,对考点的软硬件有要求,题库的安全要有保障,考生对新考试还需要一个适应期,CALT的信效度方面的实证研究还不够多,CALT会产生什么样的后效,我们都要预见到。
(2)测试的内容和形式如何结合,才能最大限度地发挥它的作用,即测到我们想测的语言能力。用技能分离式还是综合式?还是二者结合?是分多还是合多?客观的多项选择题,是否能适用于最新的交际语言测试或任务型语言测试。主客观题在测试中所占的比例应该多大,才能使测试的信效度达到最佳结合点。我们的大学英语四、六级和汉语水平考试是否也应该学习雅思和新托福,考试包括听说读写四项技能的综合考察。每一项的技能的考察又不是孤立的,同时考察其他技能。 (3)語言测试应该走在语言教学的前面还是后面?是走在前面引导教学,会不会又导致应试教学?走在教学后面,是该紧跟教学的步伐还是保持适当的距离?教学前进的步伐非常快,测试的发展是否能跟得上?
(4)国内语言测试的研究,或许应该在追随国外测试发展潮流的同时,开始建立自己的与国内教育体制相适应的测试理论和模式。
参考文献
[1] 韩宝成.语言测试的新进展:基于任务的语言测试[J].外语教学与研究,2003(5):352-358,401.
[2] 杨满珍.20世纪90年代国外语言测试的发展[J].外语教学,2002(5):39-47.
[3] 陈冰冰.引领外语测试新方向—计算机化调适性语言测试[J].外语电化教学,2005(4).
[4] 郑珂,申瑞民.基于Web的自适应考试系统[J].微型电脑应用,2000(1):3-6.
[5] 王路江.中国汉语水平考试(HSK)的改革与发展[J].世界汉语教学,2005(3).
[6] 何莲珍.认知计算机适应性考试模型的设计[J].现代外语,1999(2):172-183.
[7] 曾用强.个性化自适应性测试探索[J].外语教学与研究,2002(4):278-282,320.
[8] 肖依虎,潘翠琼,陶特.语料库在语言测试中的应用[J].外语教学,2002(6):93-96.
[9] 黄大勇.语言测试中的真实性概念[J].语言教学与研究,2004(2):77-80.
[10] 张新元.大学英语测试质疑述评[J].外语界,2004(2):65-69.
[11] 潘之欣.语言测试中的多项选择题型[J].外语界,2001(4):67-74.
[12] 韩宝成.语言测试:理论、实践与发展[J].外语教学与研究,2000(1):47-52.
[13] Lado,R.Language Testing[M].New York:McGraw-Hill,1961.
[14] Oller,J.W.J r.Language Tests at School[M].London:Longman,1979.
[15] Douglas,D.Developments in language testing[J].Annual Review of Applied Linguistics,1995(15):167-187.
[16] Chapelle,C.& D.Douglas.Foundations and directions for a new decade of language Testing[C]//In Douglas,D. and C.Chapelle (Eds.).A New Decade of Language Testing Research.Stermling,Virginia:Teachers of English to Speakers of Other Languages,Inc,1993:1-22.
[17] Widdowson,H.G.Teaching Language as Communication[M].Oxford:Oxford University Press,1978.
[18] Bachman,L.Fundamental Considerations in Language Testing[M].Oxford:Oxford University Press,1990.
[19] Morrow,K.Evaluating Communicative Tests,In Anivan,S.,editor,Current Developments in Language Testing[J].Singapore:SEAMEO Regional Language Centre,1991:111-18.
[20] Wood,R.Assessment and testing[M].Cambridge:Cambridge University Press,1993.
[21] Bachman,L.and Palmer,A.Language Testing in Practice[M].Oxford:Oxford University Press,1996.
[22] Ellis,R.Task-based Language Learning and Teaching[M].Oxford:Oxford University Press,2003.
[23] Alderson J et al.Language Test Construction and Evaluation[M].Beijing:Foreign Language Teaching and Research Press,2000.
[24] Hughes A.Testing f or Language Teachers[M].Cambridge:Cambridge University Press,2000.
关键词:第二语言 语言测试研究 新动向
中图分类号:G4 文献标识码:A 文章编号:1673-9795(2014)01(a)-0056-04
韓宝成[1]认为语言测试的发展大致经历了,以教什么就测什么为特征的前科学语言测试阶段;强调标准化和客观化的心理测量学—结构主义阶段[13];强调单一语言能力和提倡综合测试法的社会语言学阶段[14];以及80年代以后流行的以测试语言运用能力为目标的交际语言测试阶段(Carroll 1980;Bachman 1990;Bachman&Palmer 1996)。
1990年被认为是语言测试发展的一个分水岭[15],因为在这一年,语言测试领域发生了几件重大的事件。首先,第12届国际语言测试研讨会在美国旧金山召开,会议的主题是“语言测试新的10年:协作与合作”。其次,在新加坡召开了主题为“语言测试和项目评估”的研讨会,会上许多学者就80年代语言测试的发展与存在的问题展开了讨论。这两次会议还讨论了成立国际语言测试协会(International Language Testing Association)的问题。这一年还出版了一些很重要的关于语言测试的学术论著,其中包括Bachman的《语言测试要略》(Fundamental Consideration in Language Testing),Davies的《语言测试原理》(Principle of Language Testing),以及Weir的《交际语言测试》(Communicative Language Testing),这些论著对后来的语言测试研究和发展起了非常重要的作用。
Chapelle&Douglas[16]于1990年预测语言测试研究在90年代可能会集中在以下一些方面:交际能力与语言测试之间的关系;语言测试自然和伦理方面的研究;对考试分数的解释;对考试的效度的研究。
杨满珍[2]在对1990年至1999年间的语言测试研讨会和公开发表或出版的有关语言测试的论文或论著进行了统计和总结后,谈道:20世纪最后10年国外语言测试的研究主要集中在以下一些方面:(1)交际语言测试;(2)信度和效度;(3)语言测试的社会作用;(4)影响考生发挥的因素;(5)做事测试(performance test);(6)计算机化测试;(7)与二语习得的关系。
此后的几年里,语言测试的动向是否像Chapelle&Douglas所预测的那样,还是延续了杨满珍所总结的七大研究焦点。哪些方面依然是焦点,又有什么新的研究热点出现,这是广大研究者所关注的。
1 语言测试新动向
根据近二十年来国内外语言测试研究者(以国内为主)在理论和实践方面的新的尝试,总结了下面的六大动向。
1.1 计算机化自适应性语言测试(Computerized Adaptive Language Test)(下称CALT)
计算机化自适应性语言测试源于计算机化自适应性测试(Computerized Adaptive Test)(下称CAT),又译为计算机化调适性测试,是一种技术上受计算机终端和PC管理的先进的测试语言能力的方法。从题库中选取符合受测者语言水平的题目进行测试,迅速准确地估计受测者的语言能力,直到达到预定的测试精度(即标准误)要求,即可结束考试。
陈冰冰[3]在《引领外语测试新方向—— 计算机化调适性语言测试》一文中提到,计算机技术的发展不仅影响了外语教与学的整个过程,而且也使得语言测试的技术手段和载体发生了革命性的变化。2001年在美国举行的第23届国际语言测试研讨会的主题就是“语言测试与技术”,基于计算机技术所构建的测试新方法—计算机化调适性语言测试,成了此次会议的主要议题。计算机化调适性语言测试由于其因材施测、能精确估计考生能力及节省施测时间等显著的优点,正逐步渗透到各类外语测试中去,引领着外语测试发展的新方向。
CALT是现代化教育技术改变测试手段的新方向,世界上许多很有影响的国际性英语考试也正在全面推行CALT。1998年以来,GRE普通测试由传统的纸笔测试全面改为CALT;东软在线凯思考试(Compute
rized Assessment System for English Communication)结合日本顶级教育产品和服务提供商旺文社(OBUNSHA)教育集团的经验开发的CALT系统已经广泛应用于企业、学校和政府,成为评价国际职业英语能力的标准。
目前,对于计算机化自适应性语言测试的研究正朝着纵深方向发展,研究者们各辟蹊径,跨学科研究引起越来越多的研究者的关注。
(1)基于Web的自适应性考试。
郑珂,申瑞民[4]在《基于Web的自适应考试系统》一文中介绍了计算机化自适应考试(Computerized Adaptive Test)的基本理论和过程,更重要的是提出了一个基于Web自适应考试系统的框架。计算机网络技术的发展和自适应考试理论的日渐成熟使得基于Web的自适应考试系统成为现实。
王路江[5]在世界汉语大会上介绍了中国汉语水平考试的改革与发展。为了提高考试和阅卷的效率,北京语言大学汉语水平考试中心正筹备开发基于项目反应理论的计算机自适应考试;为了提高主观阅卷的效率,还将开发网上阅卷和计算机自动阅卷程序;提高HSK的服务水平,加强考试的安全性,建立汉语水平考试的“网络平台”势在必行。因为它的作用不仅在于推广,更重要的是使测试依靠现代技术和理念支持,通过方便快捷的网络平台的搭建,能更直接地服务于考生。
(2)认知计算机适应性考试模型。 何莲珍[6]在研究认知科学与语言测试的关系及各种CAT模型的基础上,运用项目反映的双参数模型设计了一个包括阅读、词汇语法、完形填空的双阶认知计算机适应性考试模型(CCAT),并作了实验,实验结果显示:这种测试方式不仅提高了测试的效率,而且提高了测试的精确度,与传统的纸笔测试相比有无可比擬的优越性。这是国内语言测试研究者将认知科学与语言测试相结合的一次有益的尝试,为我们的语言测试研究提供了一个新的视角。
(3)个性化自适应性考试模型。
曾用强[7]根据自信心与测试行为之间关系的研究成果,提出了一个个性化自适应性测试模式,并与适应性测试和自适应性测试作了对比分析。结果表明:①个性化的自适应性测试模式由于引入自信心作为调整项目难度的指标,可以进一步提高测试的适应性程度;②其能力估算方法比项目反应理论中的极大似然值估算法更先进;③使语言测试不仅在项目难度上,而且在认知心理上适应于受试的个性特征,使语言测试过程更具个性。该文把语言测试与二语习得研究结合起来,探索一种机助的个性化测试模式,以引起研究者对语言测试的个性化和适应性的关注。
1.2 基于计算机语料库的语言测试
肖依虎、潘翠琼[8]立足于语料库与语言测试的内涵,阐述了语料库应用于语言测试的理性认识,分析了基于计算机的语料库应用于语言测试的必要性,可能性,其利用过程中的优势和局限性,以及语料库在语言测试上应用的前景。
TOEFL和GRE就是语料库应用于语言测试的最典型、最成功的例证。这两种测试在实践上说明了语料库用于语言测试的可能性。
语料库在语言测试中的应用,也为保证语言测试的真实性提供了技术支持。
1.3 语言测试的真实性
20世纪70年代,随着交际教学法的出现,Widdowson[17]提出了语言教学的真实性问题。80和90年代,随着语言交际测试法的出现,Morrow[19]和Bachman[18]等人提出了语言测试的真实性问题。此后真实性问题成为语言测试的一个热门话题,语言教学和测试界的学人为此进行了广泛探讨。语言测试方面的权威学术期刊《语言测试》专门出了一期特刊(1985/6)来讨论这个问题。Morrow[19]认为“真实性问题是语言测试的一个重要方面”。Wood[20]认为,“语言测试的两个主要问题,效度与信度,可以归结为真实与不真实一个问题”;Bachman&Palmer[21]认为真实性是语言测试的一个重要特征。
黄大勇[9]从文本的真实性、任务的真实性、输出的真实性和情景的真实性等四个方面对语言测试的真实性概念进行解析,并指出真实性的两个重要特征:真实性的主观性和相对性。为语言测试的设计开发者科学地把握真实性提供了一定的依据。
目前国内外有影响的语言测试,由于语料库技术的支持,在文本的真实性方面基本能保证,但其他三方面的真实性体现的水平则参差不齐。四、六级考试与托福的听力题类似,基本上全是多项选择的形式,正确答案实际上已经给出,考生要做的只是把这个正确答案挑出来。这样的考题是脱离现实的,因为在日常生活中人们听别人讲话并试图理解其话语的意思的时候,不可能给你A、B、C、D以供选择呢?比如有人打电话来让,要找的人不在,你得记留言,你要做的就是用笔记录下来这个号码和信息,而不可能是在几个现成的选项中进行选择。而雅思(IEL TS)的试题较贴近真实的生活场景。尽管雅思也有一部分听力题是多项选择的形式,但其比例不大,既不是惟一题型,也不是主流题型;应对雅思听力考试,考生要做的除了圈定自己认为正确的答案外,还要拼写出自己认为正确的答案,听考题和答题是同时进行的,只有拼写出正确的英文单词和答案,才能拿到高分。
当前,国内语言测试界需要下大力气研究的是任务的真实性,而这一点可以借鉴当前的另一热点,即任务型语言测试的研究成果。
1.4 任务型语言测试(Task-based Language Assessment,以下简称TBLA)
近十年来语言教学研究的热点是任务型教学,相关的教材和教学模式方面的研究成果层出不穷,相比之下,测试领域的研究有些滞后,但也逐渐成为测试领域的研究热点。2000年在加拿大温哥华召开的第22届国际语言测试研讨会,其中一个主题就是“Putting tasks to the test”。Language Testing于2002年第4期出专刊讨论基于任务的语言测试,这足以说明TBLA受到关切的程度。
韩宝成[1]在《语言测试的新进展:基于任务的语言测试》一文中,介绍了基于任务的语言测试的发展情况,对TBLA出现的背景及其面临的基本问题进行了分析和探讨。并指出与以语言形式或技能为重点的传统语言测试不同的是,基于任务的语言测试是以任务为核心,测试所要评定的是应试者完成任务的表现。在重交际、重表达教学思想影响下发展起来的“直接测试”或称“行为测试(performance test)”,通常是由经过培训的考官直接观察应试者完成任务的行为,采用整体评估方式,按照一个综合语言水平量表给应试者确定级别。与此不同,在基于任务的教学基础上发展起来的测试,既不考核应试者对语言知识的掌握程度,亦不对其语言水平评定等级,而是考察他们能否使用语言完成目标任务。
在测试与评估的环节上,任务型教学途径秉承了交际教学思想的原则,通过考察学生完成任务的过程来测试和评估学生实际的语言运用能力。Ellis[22]认为,任务型测试和评估的设计应该能够诱导和评价学习者在以意义为中心、并有明确交际目的的语言使用环境下的交际行为。与传统测试相比,任务型测试与评估呈现出以下几个变化:一是测试内容的变化;二是测试形式的变化;三是测试目的的变化;四是测试结果的变化。
Ellis[22]区分了传统测试与任务型测试中的“任务”,认为任务型测试中的“任务”特指“能够用来诱导和评价学习者在意义至上、目标明确的语境中交际操作行为的设计”。Ellis还对测试结果的评估提出三种形式,即直接评价法、篇章分析法和客观等级法。 1.5 测试的内容和形式的改革
分离式测试(Discrete Tests),这一代表心理测量-结构主义阶段的特征的测试方式,是过去几十年来各大语言测试的主要测试方式,也曾引领语言测试走上了科学化的道路。分离式测试考查的是受试者孤立的语言知识和语言技能(包括听、说、读、写)。并認为,各考查项之和就是对受试者语言能力的全面评价。分离式测试注重微观的语言知识和语言技能,一般采用多项选择的题型,所以它具有可随机采样,量大面广,评分客观,可解释得分等提高测试信度的优点。但是,它自身也有缺陷,那就是,分离的语言知识不等于语言运用的能力,不能真实地反映出语言交际的能力,即得高分者其语用能力不一定高,也就是测试的内容效度较低。由于对分离式测试的批评越来越多,国内外的许多有影响力的考试都开始重新采用部分综合性试题,来弥补单一的分离式测试的不足,以此来追求信度和效度的最佳平衡,正应证了一句古语“分久必合”。
客观多项选择题型是语言测试史上第二阶段的产物,虽然曾经风靡全球,但也存在不少弊端。测试专家Alderson[23]说:“有证据表明,参加多项选择考试的学生能够学会一些应试技巧,如猜测正确答案、排除毫无意义的干扰项、避免选择两个意义相近的选择项等,使自己的分数‘人工地’提高许多”。另一位测试专家Hughes[24]给多项选择题型列了六大弊端:(1)只考识别能力,所以不能准确测量应试者的水平;(2)分数中的猜测成分可以很大而且不好确定;(3)严重限制了什么能考、什么不能考;(4)设计出好的项目极为困难;(5)反拨作用往往不好—— 准备这种考试不是提高语言水平的最佳途径;(6)考生作弊容易。现在仍使用多项选择题型的所谓标准化测试还很多,例如美国著名的TOEFL(托福)和国内的大学英语四、六级考试但也已开始进行改革,在逐步加大主观性试题的比例。
2006年5月登陆中国的新托福由四部分组成,分别是阅读(Reading)、听力(Listening)、
口试(Speaking)、写作(Writing)。新托福考察更加全面,各项技能相互渗透,并且题量明显增加。说到考察更加全面,我们知道旧托福考试只考听和读,说由TSE考,写由TWE考。口语TSE考试,在过去的考试里面一直属于可以选择性的考试,而现在的新托福里面进入了必考内容。再有一点,客观题走向了主观题的趋势,如语法取消了,语法很大程度代表了客观题的选择。还有我们讲到各项技能相互渗透方面,从出题的形式上更加灵活了,口语写作都是各个技能互相渗透的,比如口语部分,它先让你阅读,然后再听、然后再说,写作也是这样的,让你阅读、听、写。这样的话,读、听、说和读、听、写相互渗透,更加接近生活,更加接近北美大学的生活。
大学英语四、六级改革则是近几年国内语言测试界的热门话题。1996年以前,四级考试中客观题占85%,六级占75%左右。为了改变客观题比重过大的问题,考试委员会于1995年和1996年两次公布了拟采用的新题型,适当增加了主观题的比例,1999年开始举行口语考试。从2005年起,大学英语四、六级考试加大了听力理解部分的题量和比例,增加快速阅读理解测试,增加非选择性试题的比例。试点阶段的四、六级考试由四部分构成:听力理解、阅读理解、综合测试和写作测试。听力理解部分的比例提高到35%,其中听力对话占15%,听力短文占20%。听力对话部分包括短对话和长对话的听力理解;听力短文部分包括短文听写和选择题型的短文理解;听力题材选用对话、讲座、广播电视节目等更具真实性的材料。阅读理解部分比例调整为35%,其中仔细阅读部分(careful reading)占25%,快速阅读部分(fast reading)占10%。仔细阅读部分除测试篇章阅读理解外,还包括对篇章语境中的词汇理解的测试;快速阅读部分测试各种快速阅读技能。综合测试比例为15%,由两部分构成。第一部分为完型填空或改错,占10%;第二部分为短句问答或翻译,占5%。写作能力测试部分比例为15%,体裁包括议论文、说明文、应用文等。
没有口语考试的语言水平或能力考试算不上全面的语言测试,其效度难以保证,语言如果不用说来测,那么这将是一种语言测试最大的遗憾。
1.6 评分制度的改革
评分制度的改革也是语言测试发展的一个新亮点。科学的评分制度和分数报告体制对正确地理解和解释分数以及科学地决策至关重要。
新托福网考(IBT)总分数为120分,每部分为30分。美国各名校对托福考试最低分数的要求由550改为80分。以下是ETS官方网站公布的新旧分数换算表(见表1)。
四、六级改革所采取的另一重要举措也是改革计分体制和成绩报道方式。改革前的英语四、六级考试分为合格和不合格,只有合格者才能拿到合格证书。自2005年6月考试起,四、六级考试成绩将采用满分为710分的计分体制,考试成绩在290~710分之间,呈正态分布,均值是500分,一个标准差在70分,成绩低可以到290分,高可以到710分。不设及格线,成绩报道方式由考试合格证书改为成绩报告单,即考后向每位考生发放成绩报告单,报道内容包括:总分、单项分等。为使学校理解考试分数的含义并根据各校的实际情况合理使用考试测量的结果,四、六级考试委员会将向学校提供四、六级考试分数的解释。
2 结语
在发展的道路上,机遇与挑战同在,许多问题还有待进一步探讨和研究:
(1)CALT考试在国内要推广,对考点的软硬件有要求,题库的安全要有保障,考生对新考试还需要一个适应期,CALT的信效度方面的实证研究还不够多,CALT会产生什么样的后效,我们都要预见到。
(2)测试的内容和形式如何结合,才能最大限度地发挥它的作用,即测到我们想测的语言能力。用技能分离式还是综合式?还是二者结合?是分多还是合多?客观的多项选择题,是否能适用于最新的交际语言测试或任务型语言测试。主客观题在测试中所占的比例应该多大,才能使测试的信效度达到最佳结合点。我们的大学英语四、六级和汉语水平考试是否也应该学习雅思和新托福,考试包括听说读写四项技能的综合考察。每一项的技能的考察又不是孤立的,同时考察其他技能。 (3)語言测试应该走在语言教学的前面还是后面?是走在前面引导教学,会不会又导致应试教学?走在教学后面,是该紧跟教学的步伐还是保持适当的距离?教学前进的步伐非常快,测试的发展是否能跟得上?
(4)国内语言测试的研究,或许应该在追随国外测试发展潮流的同时,开始建立自己的与国内教育体制相适应的测试理论和模式。
参考文献
[1] 韩宝成.语言测试的新进展:基于任务的语言测试[J].外语教学与研究,2003(5):352-358,401.
[2] 杨满珍.20世纪90年代国外语言测试的发展[J].外语教学,2002(5):39-47.
[3] 陈冰冰.引领外语测试新方向—计算机化调适性语言测试[J].外语电化教学,2005(4).
[4] 郑珂,申瑞民.基于Web的自适应考试系统[J].微型电脑应用,2000(1):3-6.
[5] 王路江.中国汉语水平考试(HSK)的改革与发展[J].世界汉语教学,2005(3).
[6] 何莲珍.认知计算机适应性考试模型的设计[J].现代外语,1999(2):172-183.
[7] 曾用强.个性化自适应性测试探索[J].外语教学与研究,2002(4):278-282,320.
[8] 肖依虎,潘翠琼,陶特.语料库在语言测试中的应用[J].外语教学,2002(6):93-96.
[9] 黄大勇.语言测试中的真实性概念[J].语言教学与研究,2004(2):77-80.
[10] 张新元.大学英语测试质疑述评[J].外语界,2004(2):65-69.
[11] 潘之欣.语言测试中的多项选择题型[J].外语界,2001(4):67-74.
[12] 韩宝成.语言测试:理论、实践与发展[J].外语教学与研究,2000(1):47-52.
[13] Lado,R.Language Testing[M].New York:McGraw-Hill,1961.
[14] Oller,J.W.J r.Language Tests at School[M].London:Longman,1979.
[15] Douglas,D.Developments in language testing[J].Annual Review of Applied Linguistics,1995(15):167-187.
[16] Chapelle,C.& D.Douglas.Foundations and directions for a new decade of language Testing[C]//In Douglas,D. and C.Chapelle (Eds.).A New Decade of Language Testing Research.Stermling,Virginia:Teachers of English to Speakers of Other Languages,Inc,1993:1-22.
[17] Widdowson,H.G.Teaching Language as Communication[M].Oxford:Oxford University Press,1978.
[18] Bachman,L.Fundamental Considerations in Language Testing[M].Oxford:Oxford University Press,1990.
[19] Morrow,K.Evaluating Communicative Tests,In Anivan,S.,editor,Current Developments in Language Testing[J].Singapore:SEAMEO Regional Language Centre,1991:111-18.
[20] Wood,R.Assessment and testing[M].Cambridge:Cambridge University Press,1993.
[21] Bachman,L.and Palmer,A.Language Testing in Practice[M].Oxford:Oxford University Press,1996.
[22] Ellis,R.Task-based Language Learning and Teaching[M].Oxford:Oxford University Press,2003.
[23] Alderson J et al.Language Test Construction and Evaluation[M].Beijing:Foreign Language Teaching and Research Press,2000.
[24] Hughes A.Testing f or Language Teachers[M].Cambridge:Cambridge University Press,2000.