论文部分内容阅读
摘 要:在外语教学界,语料库已经成为一个热门话题。它在语言测试方面有着十分广阔的应用前景。而TestBuilder软件系统正好顺应了这种趋势,它使得语料库更方便地进入语言测试,为广大教师和测试人员提供了一个有力的工具。本文简要介绍了常用的语料库,详细描述了TestBuilder的基本功能、特点和操作方法,探讨了语料库及其相关软件辅助外语测试的益处,旨在促进基于语料库的外语测试活动的展开。
关键词:语料库;TestBuilder;语言测试
[中图分类号]H319
[文献标识码]A
[文章编号]1006-2831(2008)02-0128-4
Abstract: In recent years literary “corpus” has become a hot issue in foreign language teaching. It has a wide application in language testing. In response to it, TestBuilder is an application to apply corpus to language testing, serving as a useful tool for teachers and testers. Firstly, this paper introduces some important corpus to English learners, then goes on to describe the basic function and characteristics in the instruction of TestBuilder. Finally, the paper concludes by listing the advantages of using corpus and TestBuilder in language testing, with the aim of promoting corpus-based language testing.
Key words: corpus, TestBuilder, language testing
1. 引言
语料库(Corpus)是指收集的未经加工过的语言材料和素材。(戴炜栋、张爱玲,1999)我们现在所讲的语料库一般是指这种基于计算机技术的电子语料库。这种语料库通常具有巨大的包容性,检索方便,对语料的调用迅速简洁,已经成了语言研究不可缺少的辅助工具。所以,基于计算机的语料库语言学正引起我国教育界人士的极大兴趣。大家带着极大的热情探索对它的利用。语料库在语言测试方面也具有极大的应用前景。但迄今为止,这方面的研究几乎是空白(Alderson,1996: 248),所以语料库辅助的语言测试是一个极具潜力且急待开发的领域。(梁茂成,2003)从中国期刊网上,笔者也发现很少有人探究语料库应用于语言测试。作者检索关键词“语料库”和“测试”只查到四篇文章(如肖依虎、潘翠琼,2002;周佳,2000等)。因此,本文首先介绍一些常用的语料库,然后描述了测试软件TestBuilder的基本功能、特点和操作方法,最后探讨了语料库及其相关软件辅助外语测试的益处,旨在促进基于语料库的外语测试活动的展开。在此文中,语言测试指的都是英语语言测试。
2. 英语学习者常用的语料库
从许家金博士的网站“语料天涯”http://www.ddyyx.com/netprints/ Corporalink/ Corporalink.htm上,我们可以查到目前常用的各类语料库。下面我们介绍几个外语教师和英语学习者常用的语料库:
3. TestBuilder的基本功能和特点
TestBuilder是一个适用于Windows2000的应用程序,用来帮助教师设计基于语料库的整个篇章和句子层面的语言测试。在篇章层面它可以用来设计完形填空、给出首字母的单词填空、插入句子和打乱段落的测试题型。在句子层面它可以用来设计给出首字母的单词填空和划线的单词填空的测试题型。
它有很多其它测试软件不可比拟的特点,首先它是免费共享的,每个想使用它的人只要按照http://elex.amu.edu.pl/~przemka/TB.htm上的要求,向设计者表明需要的原因即可;其次,因为它把语料库应用到语言测试中,给设计者提供了巨大的真实语境资源,使用者能轻松地找到和使用大量的素材。再次,它有附码功能,使用者可以自主编写测试内容。在它的界面上有Tokenize and tag file这个按钮可以把纯文本文件转换为编码文件,这样使用者可以自己建立小型的语料库。最后,它界面简洁、操作简单,使用者很容易掌握。
4. TestBuilder的具体操作方法
4.1 载入或删除文件
要载入文件,有两个方式。一种是通过点击File,选择Load tagged text file。就会出现菜单,电脑中的所有附码文件就会显示在菜单中,可以自主选择它们。如果想选择纯文本文件,可以下拉菜单中的文件类型,并选择 “all files”;另一种是直接点击界面中的Load tagged text file,操作同上。需要注意的是,如果没有附码文件,可以先点击Tokenize and tag file,把纯文本文件转换为附码文件,然后再进行上述操作。如果嫌每次载入文件太麻烦,可以使用File中的Save list。在载入文件后,点击它可以保存选择的文件。以后使用的时候只要点击Load list,就可以一下把所有保存的文件载入。如果某个文件不用了就先选定它,并点击Remove file from list,就把这个文件删除出TestBuilder内存区,但还是保存在电脑里。
4.2 设计句子层面的测试
在初始界面上点击Sentence test,就进入了测试构建站的界面。它分为三个区域:Query, Results和 Test。首先要进入Query区域,在这里准备搜寻内容,把它们加入到搜寻列表中。然后在Results区域就会显示所有符合搜寻内容的句子。在这个区域可以选择想要的句子。在Test区域,可以修改想要的句子使之满足特定的测试要求。下面分别介绍各个区域的操作。
4.2.1 Query区域
首先要在空白框中输入搜寻内容。它有三种不同的方式。第一,输入单词。可以搜寻出所有选择文件中含有这个单词的句子。另外也可以通过一些固定表达搜寻出附码文件中含这个单词某种词性的句子。例如water/NN代表的是搜寻所有含有water的句子,而且water在这个句子中的词性是名词。想了解具体的各个词性表达式请查看TAGLIST文件;第二,输入词组。可以搜寻出所有选择文件中含有这个词组的句子。另外也可以通过一些固定表达搜寻出附码文件中含要求的词组的句子。注意这里词组有的是用“”或者“<”,“>”来表示的。使用“<”表示相匹配的句子是以这个词组开头的。使用“>”表示相匹配的句子是以这个词组结尾的。例如<*/V*to代表的是搜寻所有第二个单词是动词,第三个单词是to的句子。想了解具体的词组表达式请点击DOS文件夹中的FILES,并查看QUERIES文件;第三,输入排除单词。可以搜寻出所有选择文件中不含有这个单词的句子。这个单词是以感叹号“!”开头的。例如:<*****>! a*代表的是搜寻含五个单词的句子,但这个句子中不含有以a开头的单词。
在编辑了搜寻内容后,点击Go就开始搜寻。如果点击Add就可以把搜寻内容从编辑框添加到列表中,按下Enter键也可以实现此功能。点击Freq结果就会以出现频率显示。如果想搜寻以前保存过的内容,点击Query选择菜单中的Load来载入,如果想把列表保存下来以后用就选择Save。在搜索列表中点击鼠标右键选择Remove就把选定的搜寻条目移出列表,而选择Remove all就把所有的搜寻条目移出列表。
4.2.2 Results区域
在这个区域能看到搜寻的结果。目前只能显示前一千个句子,每行一个,但这对于大多数用户已经够用。在句子中要出题的那些单词都是用括号括起来的。这时点击Add all就把所有句子加入到Test区域,而点击Clear就清除了整个结果,所以一定要慎用它。点击Save就把搜索的结果保存下来。而在列表区内点击鼠标右键选择Add只把选定的句子加入到Test区域。
4.2.3 Test区域
在这个区域可以对选定的句子进行编辑和排版。在列表的左下方有五个功能按钮。点击Shuffle改变句子的排列顺序。One Each:使每个搜索条目只留下一个句子。Clear:清除测试列表中的所有句子。Move gaps:通过选择往左或右的单词数来移动想要挖空的单词。Print:打印出试题和答案。
在列表区点击鼠标右键,可以看到Edit、Crop和Remove三个选项。选择Edit可以对句子进行编辑。先双击需要修改的单词,点右键可以对它进行编辑,插入和删除。注意保存编辑过的结果,记得点击set按钮。选择Remove就把选定的句子移出Test区域,而相反的选择Crop就把选定的句子留下而把其它的句子移出Test区域。
除了编辑句子外,我们还可以通过在Sorted框里划上记号,然后在下拉菜单中选择排序的参数来排序。
在列表的右下方有四个功能按钮用来选择测试类型。选择Underline,单词没有被挖空,但打印出来后它们会在括号里。选择Unified,所有被挖空的单词都被同样长度的空白代替。选择Matching length,每个被挖空的单词字母数目都会通过小短横表示出来。选择Hangman,每个被挖空的单词字母数目都会通过小短横表示出来,而且会给出单词的第一个字母作为提示。
在编辑完句子后,点击菜单栏中的Test,可以看到六个选项。选择Save Test,可以把试题和答案保存在硬盘里。选择Save Pure Text,可以创建一个包含完整句子即没有把单词挖空的文件。选择Save Test Project,可以保存试题和答案在TestBuilder内存区。只要以前保存在Test Project中的文件,选择Open Test Project,可以载入到Test区域来编辑。选择Show Pure Text,就会在另外的窗口显示试题但没有挖空。选择Attach Word List,被挖空的单词就会顺序杂乱地出现在试题的上方。
4.3 设计篇章层面的测试
在初始界面上点击Whole-text test,就进入了选择测试类型Choose test type的界面。有四种类型Cloze test(去掉单词要测试者自己填写的完形填空),Hangman test(把单词中的字母挖空的填空),Insertion test(把挑出来某些单词或句子插入到合适的空缺中)和re-ordering test(把打乱了顺序的段落重新排序)供出题人选择。选择任意一个点击Prepare test就可以编辑试题了。
Cloze test的编辑界面有两个主要的功能按钮:Auto gapping和Remove all gaps。如果选择前者,有三个选项。通过Interval可以在篇章中设置每隔几个单词挖空一个;通过Part of speech可以设置挖空每个词性的所有单词;通过Probability可以设置每个单词被挖空的可能性。对于显示被挖空的单词,可以双击它来确定到底要不要挖空。如果想把显示出来的全部挖空,可以点击Remove all gaps。完成这些步骤后,想打印或保存试题和答案就点击菜单栏上的Test,选择Save/Print test。目前Save test project功能还没开通。
Hangman test的操作与完形填空基本相同,只是它挖空的对象是字母。还有一点不同的是在Auto gapping下面,它只有两个选项。通过Pattern可以在篇章中设置一个模式来挖空字母。通过Probability可以设置每个字母被挖空的可能性。
如果要编辑Insertion test,先在载入的文本中选定某些单词、词组或句子,然后按右键点击Add,就把选定的内容变成粗体,并添加到下面的答案编辑区。如果想撤销挖空的内容,在答案编辑区内选定它,按鼠标右键选择Remove就行。在答案编辑区下,有三个功能按钮。点击Remove all就把所有挖空的部分都移到答案编辑区。点击Shuffle就会把答案编辑区的答案打乱顺序。点击Add fake可以编辑其它选项干扰受试者。完成这些步骤后,想打印或保存试题和答案就点击菜单栏上的Test,选择Save/Print test。
如果要编辑re-ordering test,在载入的文本列表中点击右键有两个选项。选择Add boundary就在选定的段落或句子后就加入标记。选择Remove boundary就在选定的段落或句子后就去掉标记。如果要去掉所有的标记恢复原来的顺序只需点击Remove all boundaries按钮就行。完成这些步骤后,想打印或保存试题和答案就点击菜单栏上的Test,选择Save/Print test。
5. 结语
语料库的建立和开发为各种标准化考试提供大量的真实可靠数据,为各种语言测试提供了科学根据和原始素材。例如在命题方面,语料库首先可以为命题者提供合适的素材,如果已经建设一个规模较大的而且具有语言使用失误标注的学习者语料库(如CLEC),根据错误的分布和频率等信息,命题者就很容易确定哪些词、哪些语言结构应该作为考试的重点。而且根据语料库提供的信息进行命题,可以十分有效地提高考试的效度,同时保证考试的科学性和针对性。而TestBuilder作为一种基于语料库的测试软件工具,为外语语言测试提供了一个极好的平台,使语料库技术走到了普通教师的教学活动之中,具有很大的应用价值。当然,它也还有一些不足的地方,例如测试题型较单一,显示文本过少等,这些都是我们在不久的将来需要解决的问题。
参考文献
Alderson, C. Do Corpora Have A Role in Language Assessment in Using Corpora for Language Research[M]. London: Longman Group UK Limited, 1996: 248.
http://elex.amu.edu.pl/~przemka/Concl_Refs_App.pdf
戴炜栋、张爱玲. 语料库计算机语言学[J].外国语,1999.
梁茂成. 利用WordPilot在外语教学中自建小型语料库[J]. 外语电化教学,2003(12).
肖依虎、潘翠琼. 语料库在语言测试中的应用[J]. 外语教学,2002(6).
周佳. 基于计算机语料库的语言测试[J]. 第四军医大学学报,2005(22).
关键词:语料库;TestBuilder;语言测试
[中图分类号]H319
[文献标识码]A
[文章编号]1006-2831(2008)02-0128-4
Abstract: In recent years literary “corpus” has become a hot issue in foreign language teaching. It has a wide application in language testing. In response to it, TestBuilder is an application to apply corpus to language testing, serving as a useful tool for teachers and testers. Firstly, this paper introduces some important corpus to English learners, then goes on to describe the basic function and characteristics in the instruction of TestBuilder. Finally, the paper concludes by listing the advantages of using corpus and TestBuilder in language testing, with the aim of promoting corpus-based language testing.
Key words: corpus, TestBuilder, language testing
1. 引言
语料库(Corpus)是指收集的未经加工过的语言材料和素材。(戴炜栋、张爱玲,1999)我们现在所讲的语料库一般是指这种基于计算机技术的电子语料库。这种语料库通常具有巨大的包容性,检索方便,对语料的调用迅速简洁,已经成了语言研究不可缺少的辅助工具。所以,基于计算机的语料库语言学正引起我国教育界人士的极大兴趣。大家带着极大的热情探索对它的利用。语料库在语言测试方面也具有极大的应用前景。但迄今为止,这方面的研究几乎是空白(Alderson,1996: 248),所以语料库辅助的语言测试是一个极具潜力且急待开发的领域。(梁茂成,2003)从中国期刊网上,笔者也发现很少有人探究语料库应用于语言测试。作者检索关键词“语料库”和“测试”只查到四篇文章(如肖依虎、潘翠琼,2002;周佳,2000等)。因此,本文首先介绍一些常用的语料库,然后描述了测试软件TestBuilder的基本功能、特点和操作方法,最后探讨了语料库及其相关软件辅助外语测试的益处,旨在促进基于语料库的外语测试活动的展开。在此文中,语言测试指的都是英语语言测试。
2. 英语学习者常用的语料库
从许家金博士的网站“语料天涯”http://www.ddyyx.com/netprints/ Corporalink/ Corporalink.htm上,我们可以查到目前常用的各类语料库。下面我们介绍几个外语教师和英语学习者常用的语料库:
3. TestBuilder的基本功能和特点
TestBuilder是一个适用于Windows2000的应用程序,用来帮助教师设计基于语料库的整个篇章和句子层面的语言测试。在篇章层面它可以用来设计完形填空、给出首字母的单词填空、插入句子和打乱段落的测试题型。在句子层面它可以用来设计给出首字母的单词填空和划线的单词填空的测试题型。
它有很多其它测试软件不可比拟的特点,首先它是免费共享的,每个想使用它的人只要按照http://elex.amu.edu.pl/~przemka/TB.htm上的要求,向设计者表明需要的原因即可;其次,因为它把语料库应用到语言测试中,给设计者提供了巨大的真实语境资源,使用者能轻松地找到和使用大量的素材。再次,它有附码功能,使用者可以自主编写测试内容。在它的界面上有Tokenize and tag file这个按钮可以把纯文本文件转换为编码文件,这样使用者可以自己建立小型的语料库。最后,它界面简洁、操作简单,使用者很容易掌握。
4. TestBuilder的具体操作方法
4.1 载入或删除文件
要载入文件,有两个方式。一种是通过点击File,选择Load tagged text file。就会出现菜单,电脑中的所有附码文件就会显示在菜单中,可以自主选择它们。如果想选择纯文本文件,可以下拉菜单中的文件类型,并选择 “all files”;另一种是直接点击界面中的Load tagged text file,操作同上。需要注意的是,如果没有附码文件,可以先点击Tokenize and tag file,把纯文本文件转换为附码文件,然后再进行上述操作。如果嫌每次载入文件太麻烦,可以使用File中的Save list。在载入文件后,点击它可以保存选择的文件。以后使用的时候只要点击Load list,就可以一下把所有保存的文件载入。如果某个文件不用了就先选定它,并点击Remove file from list,就把这个文件删除出TestBuilder内存区,但还是保存在电脑里。
4.2 设计句子层面的测试
在初始界面上点击Sentence test,就进入了测试构建站的界面。它分为三个区域:Query, Results和 Test。首先要进入Query区域,在这里准备搜寻内容,把它们加入到搜寻列表中。然后在Results区域就会显示所有符合搜寻内容的句子。在这个区域可以选择想要的句子。在Test区域,可以修改想要的句子使之满足特定的测试要求。下面分别介绍各个区域的操作。
4.2.1 Query区域
首先要在空白框中输入搜寻内容。它有三种不同的方式。第一,输入单词。可以搜寻出所有选择文件中含有这个单词的句子。另外也可以通过一些固定表达搜寻出附码文件中含这个单词某种词性的句子。例如water/NN代表的是搜寻所有含有water的句子,而且water在这个句子中的词性是名词。想了解具体的各个词性表达式请查看TAGLIST文件;第二,输入词组。可以搜寻出所有选择文件中含有这个词组的句子。另外也可以通过一些固定表达搜寻出附码文件中含要求的词组的句子。注意这里词组有的是用“”或者“<”,“>”来表示的。使用“<”表示相匹配的句子是以这个词组开头的。使用“>”表示相匹配的句子是以这个词组结尾的。例如<*/V*to代表的是搜寻所有第二个单词是动词,第三个单词是to的句子。想了解具体的词组表达式请点击DOS文件夹中的FILES,并查看QUERIES文件;第三,输入排除单词。可以搜寻出所有选择文件中不含有这个单词的句子。这个单词是以感叹号“!”开头的。例如:<*****>! a*代表的是搜寻含五个单词的句子,但这个句子中不含有以a开头的单词。
在编辑了搜寻内容后,点击Go就开始搜寻。如果点击Add就可以把搜寻内容从编辑框添加到列表中,按下Enter键也可以实现此功能。点击Freq结果就会以出现频率显示。如果想搜寻以前保存过的内容,点击Query选择菜单中的Load来载入,如果想把列表保存下来以后用就选择Save。在搜索列表中点击鼠标右键选择Remove就把选定的搜寻条目移出列表,而选择Remove all就把所有的搜寻条目移出列表。
4.2.2 Results区域
在这个区域能看到搜寻的结果。目前只能显示前一千个句子,每行一个,但这对于大多数用户已经够用。在句子中要出题的那些单词都是用括号括起来的。这时点击Add all就把所有句子加入到Test区域,而点击Clear就清除了整个结果,所以一定要慎用它。点击Save就把搜索的结果保存下来。而在列表区内点击鼠标右键选择Add只把选定的句子加入到Test区域。
4.2.3 Test区域
在这个区域可以对选定的句子进行编辑和排版。在列表的左下方有五个功能按钮。点击Shuffle改变句子的排列顺序。One Each:使每个搜索条目只留下一个句子。Clear:清除测试列表中的所有句子。Move gaps:通过选择往左或右的单词数来移动想要挖空的单词。Print:打印出试题和答案。
在列表区点击鼠标右键,可以看到Edit、Crop和Remove三个选项。选择Edit可以对句子进行编辑。先双击需要修改的单词,点右键可以对它进行编辑,插入和删除。注意保存编辑过的结果,记得点击set按钮。选择Remove就把选定的句子移出Test区域,而相反的选择Crop就把选定的句子留下而把其它的句子移出Test区域。
除了编辑句子外,我们还可以通过在Sorted框里划上记号,然后在下拉菜单中选择排序的参数来排序。
在列表的右下方有四个功能按钮用来选择测试类型。选择Underline,单词没有被挖空,但打印出来后它们会在括号里。选择Unified,所有被挖空的单词都被同样长度的空白代替。选择Matching length,每个被挖空的单词字母数目都会通过小短横表示出来。选择Hangman,每个被挖空的单词字母数目都会通过小短横表示出来,而且会给出单词的第一个字母作为提示。
在编辑完句子后,点击菜单栏中的Test,可以看到六个选项。选择Save Test,可以把试题和答案保存在硬盘里。选择Save Pure Text,可以创建一个包含完整句子即没有把单词挖空的文件。选择Save Test Project,可以保存试题和答案在TestBuilder内存区。只要以前保存在Test Project中的文件,选择Open Test Project,可以载入到Test区域来编辑。选择Show Pure Text,就会在另外的窗口显示试题但没有挖空。选择Attach Word List,被挖空的单词就会顺序杂乱地出现在试题的上方。
4.3 设计篇章层面的测试
在初始界面上点击Whole-text test,就进入了选择测试类型Choose test type的界面。有四种类型Cloze test(去掉单词要测试者自己填写的完形填空),Hangman test(把单词中的字母挖空的填空),Insertion test(把挑出来某些单词或句子插入到合适的空缺中)和re-ordering test(把打乱了顺序的段落重新排序)供出题人选择。选择任意一个点击Prepare test就可以编辑试题了。
Cloze test的编辑界面有两个主要的功能按钮:Auto gapping和Remove all gaps。如果选择前者,有三个选项。通过Interval可以在篇章中设置每隔几个单词挖空一个;通过Part of speech可以设置挖空每个词性的所有单词;通过Probability可以设置每个单词被挖空的可能性。对于显示被挖空的单词,可以双击它来确定到底要不要挖空。如果想把显示出来的全部挖空,可以点击Remove all gaps。完成这些步骤后,想打印或保存试题和答案就点击菜单栏上的Test,选择Save/Print test。目前Save test project功能还没开通。
Hangman test的操作与完形填空基本相同,只是它挖空的对象是字母。还有一点不同的是在Auto gapping下面,它只有两个选项。通过Pattern可以在篇章中设置一个模式来挖空字母。通过Probability可以设置每个字母被挖空的可能性。
如果要编辑Insertion test,先在载入的文本中选定某些单词、词组或句子,然后按右键点击Add,就把选定的内容变成粗体,并添加到下面的答案编辑区。如果想撤销挖空的内容,在答案编辑区内选定它,按鼠标右键选择Remove就行。在答案编辑区下,有三个功能按钮。点击Remove all就把所有挖空的部分都移到答案编辑区。点击Shuffle就会把答案编辑区的答案打乱顺序。点击Add fake可以编辑其它选项干扰受试者。完成这些步骤后,想打印或保存试题和答案就点击菜单栏上的Test,选择Save/Print test。
如果要编辑re-ordering test,在载入的文本列表中点击右键有两个选项。选择Add boundary就在选定的段落或句子后就加入标记。选择Remove boundary就在选定的段落或句子后就去掉标记。如果要去掉所有的标记恢复原来的顺序只需点击Remove all boundaries按钮就行。完成这些步骤后,想打印或保存试题和答案就点击菜单栏上的Test,选择Save/Print test。
5. 结语
语料库的建立和开发为各种标准化考试提供大量的真实可靠数据,为各种语言测试提供了科学根据和原始素材。例如在命题方面,语料库首先可以为命题者提供合适的素材,如果已经建设一个规模较大的而且具有语言使用失误标注的学习者语料库(如CLEC),根据错误的分布和频率等信息,命题者就很容易确定哪些词、哪些语言结构应该作为考试的重点。而且根据语料库提供的信息进行命题,可以十分有效地提高考试的效度,同时保证考试的科学性和针对性。而TestBuilder作为一种基于语料库的测试软件工具,为外语语言测试提供了一个极好的平台,使语料库技术走到了普通教师的教学活动之中,具有很大的应用价值。当然,它也还有一些不足的地方,例如测试题型较单一,显示文本过少等,这些都是我们在不久的将来需要解决的问题。
参考文献
Alderson, C. Do Corpora Have A Role in Language Assessment in Using Corpora for Language Research[M]. London: Longman Group UK Limited, 1996: 248.
http://elex.amu.edu.pl/~przemka/Concl_Refs_App.pdf
戴炜栋、张爱玲. 语料库计算机语言学[J].外国语,1999.
梁茂成. 利用WordPilot在外语教学中自建小型语料库[J]. 外语电化教学,2003(12).
肖依虎、潘翠琼. 语料库在语言测试中的应用[J]. 外语教学,2002(6).
周佳. 基于计算机语料库的语言测试[J]. 第四军医大学学报,2005(22).