论文部分内容阅读
摘要:针对当前大学英语词汇和英语阅读的教学需求,结合大学英语四、六级的实际教学情况,借助文本的自动分类、自动标注和信息检索技术,结合网络和人工的方法,建立大学英语四、六级词汇电子文本语料库、计算机自动分级系统、阅读材料自动出题和测验系统,有力地支持教师对学生的考察和学生的自测。
关键词:语料库;大学英语四、六级;大学英语教学
一、语料库理论和基于语料库的语言研究
现代语料库是真实语言电子文本的数据库。一方面,使用者可以通过检索程序从语料库中提取所有包含关键词或结构的语句,进行结构对比和词语分析,归纳语言现象。另一方面,使用者也可以通过语料库的建立,对于电子文本进行分类。电子语料库的出现为语言研究和教学提供了极为方便的工具。
基于语料库进行语言学和语言教学的研究变得越来越重要。一方面,这是因为语料库分析能够应用在语言学或是语言教学的各个分支中。另一方面,语料库的数据是基于它的自然性,即把使用者对语言的直觉运用大量积累在一起。因此,使得基于语料库的分析更加客观。近20年来,语料库已经对语言学研究和著作产生了巨大的影响。Hunston 在5个主要方面总结了语料库带给字典及一些参考书籍的改变:词频、词的搭配与措辞、变异、语法中的词汇和语言真实性。除此之外,语料库已经被广泛应用在语言学的所有方向中,例如,词典编辑及词汇学研究、语法学、语言变迁学、比较文学和翻译学研究、语义学、语用学、文体学、社会语言学、语篇分析和语言教育学等。
二、语料库对外语教学的影响
在语言教学中,语料库一个简单而又重要的作用就是为语言使用提供真实例子。此外,语料库所提供的数据,例如词频数据,可以影响甚至是改变教学的内容。Mindt通过研究指出,没有基于语料库数据的课程设计的一大问题是其教学内容所要求掌握语言知识的顺序经常不符合语料库中的真实英语口语和书面语所要求的顺序。因此,他认为教学的课程设计不应以对用法频率传统的和直觉的理解来作为导向,而是应当基于经验证据进行考量。Hunston则认为语料库的使用引出了完全不同的课程设计理念。她在研究中讨论的是“词汇课程”。这种课程最初是由Sinclair 和Renouf在1988年提出并由Willis完成了全面的概述。根据Sinclair和Renouf的理论, 词汇课程的重点集中在3方面:1.语言中单词的最基本形式;2.重点用法;3.单词和用法的结合。Sinclair 及其同事关于词汇课程的建议得到了Lewis的响应。Lewis的多部著作都有力地支持了语言教学中词汇教学法的理论。一些人因字面上的理解,把“词汇课程”曲解成仅由单词组成。事实上Hunston强调词汇课程涵盖了语言的所有方面,跟传统的只以单词教学作为核心教学思想的课程完全不同。而利用语料库这一工具进行的课程设计和教材研发恰能充分满足词汇教学法的教学目的。正如Murison-Bowie所评述的那样:“在教学背景下使用语料库,通常会使人难以区分哪些是词汇研究而哪些是句法研究。两者一个导致另一个的发生。这也正是语料库可以被利用在教和学背景下的优势。”
三、大学英语四、六级语料库建设的研究
大学英语四、六级考试是考察大学本科生英语水平的权威英语测试,并对大学英语本科教育有着重要的指引作用。在大学英语四、六级考试中,阅读部分占有最重要的比重。在四、六级考试改革后,更加侧重考察大学生的阅读应用能力,也成为学生们应试的难点。一方面,用于教学的阅读材料种类单一,阅读材料匮乏的问题突出。教师掌握着丰富的阅读材料,尤其是生动有趣更贴近真实语言的英文原版资源。但这些资源难以成为提高学生阅读能力的工具,因为这些资源数量不具规模,难度参差不齐,不能明确分类定性用于四、六级阅读的培训。另一方面,市场上充斥着良莠不齐的模拟题集,学生缺少便捷而科学的自学资源。
目标:
(1)结合网络和人工的方法,建立大学英语四、六级词汇电子文本语料库。
(2)根据阅读材料难度的标准,建立大学英语四、六级阅读材料的计算机自动分级系统。
(3)建立阅读材料自动出题和测验系统,有力地支持教师对学生的考察和学生的自测。支持对于词汇的按难度级别分类标记功能。
方法:
(1)研究大学英语四、六级考试阅读部分的特点和词汇难度,确定阅读材料的难度级别。
收集历年大学英语四、六级真题,《大学英语四、六级大纲》中词汇分级的标准对阅读材料中的词汇进行标注并分级。
(2)研究和应用文本的自动分类技术,支持自动分级系统的建立。
文本分类技术可以分为文本表示、特征项抽取和训练方法与分类算法等3项关键技术。本研究利用现有的分类技术,研究和确立了适用于英语四、六级阅读材料分类的文本分类类别体系,定义各种难度级别,并将相关的阅读材料划分到对应的难度级别中。这样可以定义和建立根据难度准确划分的分级阅读材料的文本分类训练语料库,在此基础上建立自动分级系统。
(3)研究自动标注技术,支持对文章中词汇的自动分级标注。
对词汇的自动分级标注技术主要包括词汇的检索和词汇的标注两部分内容。词汇的检索主要依赖于对于文本中字符串的自动检索技术。该技术在信息检索领域已近非常成熟,我们利用现有的技术支持对词汇的自动检索。词汇的自动分级标注主要依赖于英文四、六级词汇语料库的建立,基于语料库中对于每个词汇的难度定义,对于阅读文献中的所有词汇进行难度划分。
(4)研究信息检索技术,支持对于词汇的自动检索。
对于特定词汇的检索,主要依赖于信息检索模型的建立和应用。本研究采用了比较成熟的基于向量空间的信息检索模型,对于语料库中的所有词汇建模,形成可以根据词汇查询的自动检索系统。
研究结果:
本研究通过网络和人工两种方式,对于大学英语四、六级词汇进行收集和整理,建立完整准确的大学英语四、六级词汇电子文本语料库;利用历年四、六级考试的阅读真题作为基准语料库,结合文本自动分类算法,建立阅读材料自动难度分级系统,利用计算机自动地将新的英文原版资源按难度进行分级。通过对词汇和阅读材料语料库的应用,建立阅读材料自动出题和测验系统,教师和学生可以自行选择各种难度的阅读文章,文章中的词汇根据难度的不同被分级标记,这样可以方便地找到所需着重学习的词汇;系统可以自动地组成若干难度符合需要的阅读材料,方便对于学生阅读能力的考察。
基于本语料库的检索结果样本
to what is going to affect it. That should
or coastline and will affect the local ecology.
such a drug it may affect the result of your
how terribly it would affect her life. She left
and activities can affect the environment. But
How will if affect me and my baby?
and their like can affect individual lives is,
decisions which affect their lives and
语料库的出现的确为英语教学铺设了新的研究道路。目前,越来越多的语言学家和英语教学工作者正在利用各种各样的语料库进行方方面面的语言教学研究。
在国内,关于英语教育,还存在着很多误区和有待解决的问题。例如,大学英语四、六级考试是我国高等教育最重要的大规模、标准化外语考试,对促进我国大学生整体外语水平的提高发挥了重要作用。同时,这项考试对于国家、社会各类用人单位公正、科学地评估大学生外语水平,合理选拔、录用人才,也发挥了积极的作用。因此,我们的语料库语言学研究也应理论联系实际,注重研究考试语料库的开发建设问题,特别应着手建立像大学英语四、六级考试这类关系重大的大规模外语考试的试题语料库。总之,在利用各种已存在的语料库的同时,教育工作者也应尝试建立能够满足自己教学需求的语料库。
基金项目:本文受哈尔滨理工大学校级科研课题P20070021资助。
编辑/邹维
关键词:语料库;大学英语四、六级;大学英语教学
一、语料库理论和基于语料库的语言研究
现代语料库是真实语言电子文本的数据库。一方面,使用者可以通过检索程序从语料库中提取所有包含关键词或结构的语句,进行结构对比和词语分析,归纳语言现象。另一方面,使用者也可以通过语料库的建立,对于电子文本进行分类。电子语料库的出现为语言研究和教学提供了极为方便的工具。
基于语料库进行语言学和语言教学的研究变得越来越重要。一方面,这是因为语料库分析能够应用在语言学或是语言教学的各个分支中。另一方面,语料库的数据是基于它的自然性,即把使用者对语言的直觉运用大量积累在一起。因此,使得基于语料库的分析更加客观。近20年来,语料库已经对语言学研究和著作产生了巨大的影响。Hunston 在5个主要方面总结了语料库带给字典及一些参考书籍的改变:词频、词的搭配与措辞、变异、语法中的词汇和语言真实性。除此之外,语料库已经被广泛应用在语言学的所有方向中,例如,词典编辑及词汇学研究、语法学、语言变迁学、比较文学和翻译学研究、语义学、语用学、文体学、社会语言学、语篇分析和语言教育学等。
二、语料库对外语教学的影响
在语言教学中,语料库一个简单而又重要的作用就是为语言使用提供真实例子。此外,语料库所提供的数据,例如词频数据,可以影响甚至是改变教学的内容。Mindt通过研究指出,没有基于语料库数据的课程设计的一大问题是其教学内容所要求掌握语言知识的顺序经常不符合语料库中的真实英语口语和书面语所要求的顺序。因此,他认为教学的课程设计不应以对用法频率传统的和直觉的理解来作为导向,而是应当基于经验证据进行考量。Hunston则认为语料库的使用引出了完全不同的课程设计理念。她在研究中讨论的是“词汇课程”。这种课程最初是由Sinclair 和Renouf在1988年提出并由Willis完成了全面的概述。根据Sinclair和Renouf的理论, 词汇课程的重点集中在3方面:1.语言中单词的最基本形式;2.重点用法;3.单词和用法的结合。Sinclair 及其同事关于词汇课程的建议得到了Lewis的响应。Lewis的多部著作都有力地支持了语言教学中词汇教学法的理论。一些人因字面上的理解,把“词汇课程”曲解成仅由单词组成。事实上Hunston强调词汇课程涵盖了语言的所有方面,跟传统的只以单词教学作为核心教学思想的课程完全不同。而利用语料库这一工具进行的课程设计和教材研发恰能充分满足词汇教学法的教学目的。正如Murison-Bowie所评述的那样:“在教学背景下使用语料库,通常会使人难以区分哪些是词汇研究而哪些是句法研究。两者一个导致另一个的发生。这也正是语料库可以被利用在教和学背景下的优势。”
三、大学英语四、六级语料库建设的研究
大学英语四、六级考试是考察大学本科生英语水平的权威英语测试,并对大学英语本科教育有着重要的指引作用。在大学英语四、六级考试中,阅读部分占有最重要的比重。在四、六级考试改革后,更加侧重考察大学生的阅读应用能力,也成为学生们应试的难点。一方面,用于教学的阅读材料种类单一,阅读材料匮乏的问题突出。教师掌握着丰富的阅读材料,尤其是生动有趣更贴近真实语言的英文原版资源。但这些资源难以成为提高学生阅读能力的工具,因为这些资源数量不具规模,难度参差不齐,不能明确分类定性用于四、六级阅读的培训。另一方面,市场上充斥着良莠不齐的模拟题集,学生缺少便捷而科学的自学资源。
目标:
(1)结合网络和人工的方法,建立大学英语四、六级词汇电子文本语料库。
(2)根据阅读材料难度的标准,建立大学英语四、六级阅读材料的计算机自动分级系统。
(3)建立阅读材料自动出题和测验系统,有力地支持教师对学生的考察和学生的自测。支持对于词汇的按难度级别分类标记功能。
方法:
(1)研究大学英语四、六级考试阅读部分的特点和词汇难度,确定阅读材料的难度级别。
收集历年大学英语四、六级真题,《大学英语四、六级大纲》中词汇分级的标准对阅读材料中的词汇进行标注并分级。
(2)研究和应用文本的自动分类技术,支持自动分级系统的建立。
文本分类技术可以分为文本表示、特征项抽取和训练方法与分类算法等3项关键技术。本研究利用现有的分类技术,研究和确立了适用于英语四、六级阅读材料分类的文本分类类别体系,定义各种难度级别,并将相关的阅读材料划分到对应的难度级别中。这样可以定义和建立根据难度准确划分的分级阅读材料的文本分类训练语料库,在此基础上建立自动分级系统。
(3)研究自动标注技术,支持对文章中词汇的自动分级标注。
对词汇的自动分级标注技术主要包括词汇的检索和词汇的标注两部分内容。词汇的检索主要依赖于对于文本中字符串的自动检索技术。该技术在信息检索领域已近非常成熟,我们利用现有的技术支持对词汇的自动检索。词汇的自动分级标注主要依赖于英文四、六级词汇语料库的建立,基于语料库中对于每个词汇的难度定义,对于阅读文献中的所有词汇进行难度划分。
(4)研究信息检索技术,支持对于词汇的自动检索。
对于特定词汇的检索,主要依赖于信息检索模型的建立和应用。本研究采用了比较成熟的基于向量空间的信息检索模型,对于语料库中的所有词汇建模,形成可以根据词汇查询的自动检索系统。
研究结果:
本研究通过网络和人工两种方式,对于大学英语四、六级词汇进行收集和整理,建立完整准确的大学英语四、六级词汇电子文本语料库;利用历年四、六级考试的阅读真题作为基准语料库,结合文本自动分类算法,建立阅读材料自动难度分级系统,利用计算机自动地将新的英文原版资源按难度进行分级。通过对词汇和阅读材料语料库的应用,建立阅读材料自动出题和测验系统,教师和学生可以自行选择各种难度的阅读文章,文章中的词汇根据难度的不同被分级标记,这样可以方便地找到所需着重学习的词汇;系统可以自动地组成若干难度符合需要的阅读材料,方便对于学生阅读能力的考察。
基于本语料库的检索结果样本
to what is going to affect it. That should
or coastline and will affect the local ecology.
such a drug it may affect the result of your
how terribly it would affect her life. She left
and activities can affect the environment. But
How will if affect me and my baby?
and their like can affect individual lives is,
decisions which affect their lives and
语料库的出现的确为英语教学铺设了新的研究道路。目前,越来越多的语言学家和英语教学工作者正在利用各种各样的语料库进行方方面面的语言教学研究。
在国内,关于英语教育,还存在着很多误区和有待解决的问题。例如,大学英语四、六级考试是我国高等教育最重要的大规模、标准化外语考试,对促进我国大学生整体外语水平的提高发挥了重要作用。同时,这项考试对于国家、社会各类用人单位公正、科学地评估大学生外语水平,合理选拔、录用人才,也发挥了积极的作用。因此,我们的语料库语言学研究也应理论联系实际,注重研究考试语料库的开发建设问题,特别应着手建立像大学英语四、六级考试这类关系重大的大规模外语考试的试题语料库。总之,在利用各种已存在的语料库的同时,教育工作者也应尝试建立能够满足自己教学需求的语料库。
基金项目:本文受哈尔滨理工大学校级科研课题P20070021资助。
编辑/邹维