论文部分内容阅读
摘 要: 在外语语言研究界,语料库技术已经成为一个热门话题,并有十分广阔的应用前景。本文结合Range软件,探讨如何利用语料库资源挑选阅读语篇并通过软件检测语篇中的词汇难易度,设计重点突出的英语阅读教材,有效激发学生的学习兴趣。
关键词: 语料库 Range软件 英语阅读教材编写
1.引言
在外语教学和研究领域中,新兴的语料库技术受到越来越多的重视。语料库(Corpus)作为语言资料库,是在随机采样的基础上广泛收集人们实际使用、具有代表性的真实语言材料而创建的,为研究者提供分析、研究、描述和应用语言的载体。除了为编纂词典提供大量真实准确的例句外,Leech还列出了包括语言理论、语法、语义研究、语篇分析、儿童语言习得、语言测试等十几种语料库用途,充分表明了语料库对不同研究领域的重要性和促进作用[1]。
随着社会发展,当今社会对英语综合应用技巧较高的人才需要日渐增多。在反映人才的学术和文化水平方面,英语阅读能力一直是一个重要考量。因此,英语阅读课程一直受到外语界的广泛关注,胡明杨[2]和李观仪[3]等专家都对其重要性给予高度肯定。在英语阅读教材的编写中,运用多媒体技术辅助完成已经成为趋势。本文结合语料库技术中的Range程序,初步探讨如何将软件技术与英语阅读材料编制相结合,使得利用客观的数据标准编写英语阅读教材这一设想成为可能。
2.Range软件概述
Range软件是一款可用于分析文中词汇深度和广度的计算机软件。该软件由新西兰维多利亚大学(Victoria University)语言学及应用语言学系的P.Nation和A.Coxhead两位教授设计,由A.Heatley编写。软件以词频为基础设计,主要用于分析比较不同文本的词汇量大小和措辞的异同等。Range软件的词汇分析基于三个基础词表进行,分别以【Basewrd1.txt】,【Basewrd2.txt】和【Basewrd3.txt】命名。这三个词表是Nation等人对英语词汇长期研究而得出的结果。其中【Basewrd1.txt】中含有为998个最常用的英语词族(word family),合计4119个词;【Basewrd2.txt】中含有988个常用词族,合计3708个词。根据Nation(1990:19)所述,这两个基础词表中的词汇涵盖英语文本中87%的词汇。与此同时,【Basewrd3.txt】中含有基础词表1和基础词表2以外的学术词汇(academic words),在大、中学教材中最为常用。该词表内含570个词族,合计3107个词,覆盖了学术文本中所有学术词汇的8.5%,对特殊用途学习者而言,【Basewrd3.txt】中的词汇则显得非常有用[4]。
Range软件的操作较为简单,基本上可以采用该软件提供的缺设置。需要注意的是,在将需要分析的文本导入软件后,需要先对存放结果的文件进行命名并保存,才可点击分析操作。具体步骤如下:
(1)登录http://www.vuw.ac.nz/lals/staff网站,进入Paul Nation的个人主页,点击下载链接,获得Range软件的压缩包。对压缩包进行解压后,双击程序所在文件夹内的Range 32图标,即可运行软件。
(2)运行后的Range界面主要由功能区和选项区组成(参见图1):
图1 RANGE软件主界面
其中,界面的上半部分主要为功能区,可见【File】菜单,内含Open,Save,Move/Cope Basewords,Make Head Word List四个选项,可分别用于打开文本进行分析、保存分析结果、拷贝词表和制作词表。【Files to process】可以显示程序读入的文件。【Progress】为运行窗口,从中可得知程序中文本运行的状态。当出现Finished字样时,表示程序运行结束,分析完成。
界面的下半部分为主要选项区,左侧的【Basewrd1 On】,【Basewrd2 On】和【Basewrd3 On】可用于激活Range软件的3个基础词表,即【Basewrd1.txt】,【Basewrd2.txt】和【Basewrd3.txt】。在处理输入的目标文本时,Range软件会自动以这3个基础词表作为参照,生成一个结果文件,其内容可说明被考查文本中的词汇覆盖三个词表的程度,如表1:
表1 Range参照3级词表生成的单词统计结果
在上图中,第一列为词表列,其中包含的One,Two,Three分别代表基础词表1、2、3,Not in the lists表示非词表词汇。第二列为Tokens(%),指的是词汇在文本中出现的次数及其在文中的比率,表格所列数据为文本中各级词的数量及比率。第三列为类符列Types(%),指文本中出现的词类符及其在文中的比率,表格中显示的数据则为文本中的各种词的类符数量及比率。第四列为Families,即词族列,包含主词及其曲折、派生形式。
(3)选择【File】菜单中的Open,打开待分析的纯文本格式文件。若需要同时批量处理多个文本,则需点击选项区中的【Batch Files】一栏,并将处理结果存放于多个文件中。
(4)选择【File】菜单中的Save,为输出结果命名,并点击【Process Files】,界面右侧的【Progress】窗口会呈现运行过程,当出现Finished字样时,表明软件分析程序运行结束。在用户自定义的文件中可搜索出生成的结果文件。需要注意的是,为方便对数据的分析,应对读入的文本进行词汇等级标注,在运行前需对界面右侧下方的【Mark Texts】一项进行勾选,软件会自动把结果输出到*.mrk文件中。
(5)双击结果文件,选择使用记事本程序打开,便可获取软件对读入文本进行分析后的各种信息,为后续开展教学活动和语言研究提供数据支持。 3.Range软件辅助英语阅读教材编写
本文选取两篇大学英语四六级真题阅读文本作为示范语篇,展示如何通过Range软件的数据分析,根据词汇难易度,对阅读材料的顺序进行编排。具体操作步骤如下:
(1)将语篇内容录入Microsoft Word文档,继而转存为以.txt命名方式结尾的纯文本文件。结合本文所采用的示范语篇,本文将两个语篇分别命名为CET—4.TXT和CET—6.TXT。
(2)运行Range软件,点击【File】菜单中的Open,读入两个txt文本,并选中【Batch Files】,以便于观察两个不同文本的使用特点。同时选中【Mark Texts】,生成加工标注的文本,以便具体考察文本中词汇的基础词表归属情况。
(3)点击【Process Files】,等待程序运行。当【Progress】方框中出现Finished字样,则表示分析完成(参见图2):
图2 RANGE软件分析文本界面
(4)在结果文件中打开名为CET—4_range.txt和CET— 6_range.txt的分析结果文件,重新整理结果后可得出表2和表3:
表2 CET—4.TXT文本分析结果
表3 CET—6.TXT文本分析结果
(5)结果与讨论:考察两个语篇中的词汇难易程度,主要是根据Word List3和Words not in the list两项数据。观察表2和表3可得,该两项数值在两个阅读文本中差异并非特别显著。此时,需要进一步查看两项参考数值中的词汇才能确定文章词汇的难易程度。
打开已标注的文件进行观察(注:在生成的结果分析文件中,未作标志的词汇属于基础词表1;标志{2}者属于基础词表2,;标志{3}者属于基础词表3;标志{!}者为3个基础词表之外的词汇)。
CET—4阅读文本:
CET—6阅读文本:
根据不同的标注符号,现将标有符号{!}的词汇重新排序,列举如下(参见表4、表5):
表 4
表 5
从表4、表5可看出,在Range32软件基础词表以外的词汇中,第一个文本,即CET—4文本中,排除专有名词后(人名或地名,已用★标注),较难词汇数量为22个。而在CET—6文本中,排除专有名词后,较难词汇数量为26个。就词汇层次上而言,后者比前者稍难,可能会给英语学习者带来阅读理解上的困难。因此,在阅读材料的编制中,后者的确是应该放在前者之后,实现阅读难度的逐步提高,有效控制阅读能力的训练。
4.结语
语料库应用涉及大纲制定、教材编写、阅读材料选择等多个外语教学研究环节,为现实中的教学活动带来便利。外语教学工作者利用语料库资源,结合Range软件,可精心挑选阅读语篇并通过软件检测语篇中的词汇难易度,充分考虑学生实际英语词汇的掌握水平,设计重点突出的阅读教材,有效激发学生的学习兴趣。
参考文献:
[1]Leech,G.The state of the art in corpus linguistics.In K.Aijmer & B.Altenberg(eds.).English Corpus Linguistics.London:Longman.1991:8-29.
[2]胡明杨.外语学习教学往事说[J].外国语,2002(5).
[3]李观仪.我们英语学习和教学[J].外国语,2003(1).
[4]王立非.计算机辅助第二语言研究方法与应用[M].北京:外语教学与研究出版社,2007:43.
关键词: 语料库 Range软件 英语阅读教材编写
1.引言
在外语教学和研究领域中,新兴的语料库技术受到越来越多的重视。语料库(Corpus)作为语言资料库,是在随机采样的基础上广泛收集人们实际使用、具有代表性的真实语言材料而创建的,为研究者提供分析、研究、描述和应用语言的载体。除了为编纂词典提供大量真实准确的例句外,Leech还列出了包括语言理论、语法、语义研究、语篇分析、儿童语言习得、语言测试等十几种语料库用途,充分表明了语料库对不同研究领域的重要性和促进作用[1]。
随着社会发展,当今社会对英语综合应用技巧较高的人才需要日渐增多。在反映人才的学术和文化水平方面,英语阅读能力一直是一个重要考量。因此,英语阅读课程一直受到外语界的广泛关注,胡明杨[2]和李观仪[3]等专家都对其重要性给予高度肯定。在英语阅读教材的编写中,运用多媒体技术辅助完成已经成为趋势。本文结合语料库技术中的Range程序,初步探讨如何将软件技术与英语阅读材料编制相结合,使得利用客观的数据标准编写英语阅读教材这一设想成为可能。
2.Range软件概述
Range软件是一款可用于分析文中词汇深度和广度的计算机软件。该软件由新西兰维多利亚大学(Victoria University)语言学及应用语言学系的P.Nation和A.Coxhead两位教授设计,由A.Heatley编写。软件以词频为基础设计,主要用于分析比较不同文本的词汇量大小和措辞的异同等。Range软件的词汇分析基于三个基础词表进行,分别以【Basewrd1.txt】,【Basewrd2.txt】和【Basewrd3.txt】命名。这三个词表是Nation等人对英语词汇长期研究而得出的结果。其中【Basewrd1.txt】中含有为998个最常用的英语词族(word family),合计4119个词;【Basewrd2.txt】中含有988个常用词族,合计3708个词。根据Nation(1990:19)所述,这两个基础词表中的词汇涵盖英语文本中87%的词汇。与此同时,【Basewrd3.txt】中含有基础词表1和基础词表2以外的学术词汇(academic words),在大、中学教材中最为常用。该词表内含570个词族,合计3107个词,覆盖了学术文本中所有学术词汇的8.5%,对特殊用途学习者而言,【Basewrd3.txt】中的词汇则显得非常有用[4]。
Range软件的操作较为简单,基本上可以采用该软件提供的缺设置。需要注意的是,在将需要分析的文本导入软件后,需要先对存放结果的文件进行命名并保存,才可点击分析操作。具体步骤如下:
(1)登录http://www.vuw.ac.nz/lals/staff网站,进入Paul Nation的个人主页,点击下载链接,获得Range软件的压缩包。对压缩包进行解压后,双击程序所在文件夹内的Range 32图标,即可运行软件。
(2)运行后的Range界面主要由功能区和选项区组成(参见图1):
图1 RANGE软件主界面
其中,界面的上半部分主要为功能区,可见【File】菜单,内含Open,Save,Move/Cope Basewords,Make Head Word List四个选项,可分别用于打开文本进行分析、保存分析结果、拷贝词表和制作词表。【Files to process】可以显示程序读入的文件。【Progress】为运行窗口,从中可得知程序中文本运行的状态。当出现Finished字样时,表示程序运行结束,分析完成。
界面的下半部分为主要选项区,左侧的【Basewrd1 On】,【Basewrd2 On】和【Basewrd3 On】可用于激活Range软件的3个基础词表,即【Basewrd1.txt】,【Basewrd2.txt】和【Basewrd3.txt】。在处理输入的目标文本时,Range软件会自动以这3个基础词表作为参照,生成一个结果文件,其内容可说明被考查文本中的词汇覆盖三个词表的程度,如表1:
表1 Range参照3级词表生成的单词统计结果
在上图中,第一列为词表列,其中包含的One,Two,Three分别代表基础词表1、2、3,Not in the lists表示非词表词汇。第二列为Tokens(%),指的是词汇在文本中出现的次数及其在文中的比率,表格所列数据为文本中各级词的数量及比率。第三列为类符列Types(%),指文本中出现的词类符及其在文中的比率,表格中显示的数据则为文本中的各种词的类符数量及比率。第四列为Families,即词族列,包含主词及其曲折、派生形式。
(3)选择【File】菜单中的Open,打开待分析的纯文本格式文件。若需要同时批量处理多个文本,则需点击选项区中的【Batch Files】一栏,并将处理结果存放于多个文件中。
(4)选择【File】菜单中的Save,为输出结果命名,并点击【Process Files】,界面右侧的【Progress】窗口会呈现运行过程,当出现Finished字样时,表明软件分析程序运行结束。在用户自定义的文件中可搜索出生成的结果文件。需要注意的是,为方便对数据的分析,应对读入的文本进行词汇等级标注,在运行前需对界面右侧下方的【Mark Texts】一项进行勾选,软件会自动把结果输出到*.mrk文件中。
(5)双击结果文件,选择使用记事本程序打开,便可获取软件对读入文本进行分析后的各种信息,为后续开展教学活动和语言研究提供数据支持。 3.Range软件辅助英语阅读教材编写
本文选取两篇大学英语四六级真题阅读文本作为示范语篇,展示如何通过Range软件的数据分析,根据词汇难易度,对阅读材料的顺序进行编排。具体操作步骤如下:
(1)将语篇内容录入Microsoft Word文档,继而转存为以.txt命名方式结尾的纯文本文件。结合本文所采用的示范语篇,本文将两个语篇分别命名为CET—4.TXT和CET—6.TXT。
(2)运行Range软件,点击【File】菜单中的Open,读入两个txt文本,并选中【Batch Files】,以便于观察两个不同文本的使用特点。同时选中【Mark Texts】,生成加工标注的文本,以便具体考察文本中词汇的基础词表归属情况。
(3)点击【Process Files】,等待程序运行。当【Progress】方框中出现Finished字样,则表示分析完成(参见图2):
图2 RANGE软件分析文本界面
(4)在结果文件中打开名为CET—4_range.txt和CET— 6_range.txt的分析结果文件,重新整理结果后可得出表2和表3:
表2 CET—4.TXT文本分析结果
表3 CET—6.TXT文本分析结果
(5)结果与讨论:考察两个语篇中的词汇难易程度,主要是根据Word List3和Words not in the list两项数据。观察表2和表3可得,该两项数值在两个阅读文本中差异并非特别显著。此时,需要进一步查看两项参考数值中的词汇才能确定文章词汇的难易程度。
打开已标注的文件进行观察(注:在生成的结果分析文件中,未作标志的词汇属于基础词表1;标志{2}者属于基础词表2,;标志{3}者属于基础词表3;标志{!}者为3个基础词表之外的词汇)。
CET—4阅读文本:
CET—6阅读文本:
根据不同的标注符号,现将标有符号{!}的词汇重新排序,列举如下(参见表4、表5):
表 4
表 5
从表4、表5可看出,在Range32软件基础词表以外的词汇中,第一个文本,即CET—4文本中,排除专有名词后(人名或地名,已用★标注),较难词汇数量为22个。而在CET—6文本中,排除专有名词后,较难词汇数量为26个。就词汇层次上而言,后者比前者稍难,可能会给英语学习者带来阅读理解上的困难。因此,在阅读材料的编制中,后者的确是应该放在前者之后,实现阅读难度的逐步提高,有效控制阅读能力的训练。
4.结语
语料库应用涉及大纲制定、教材编写、阅读材料选择等多个外语教学研究环节,为现实中的教学活动带来便利。外语教学工作者利用语料库资源,结合Range软件,可精心挑选阅读语篇并通过软件检测语篇中的词汇难易度,充分考虑学生实际英语词汇的掌握水平,设计重点突出的阅读教材,有效激发学生的学习兴趣。
参考文献:
[1]Leech,G.The state of the art in corpus linguistics.In K.Aijmer & B.Altenberg(eds.).English Corpus Linguistics.London:Longman.1991:8-29.
[2]胡明杨.外语学习教学往事说[J].外国语,2002(5).
[3]李观仪.我们英语学习和教学[J].外国语,2003(1).
[4]王立非.计算机辅助第二语言研究方法与应用[M].北京:外语教学与研究出版社,2007:43.