论小规模语料库的构建

来源 :考试周刊 | 被引量 : 0次 | 上传用户:kahn419
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 本文介绍了小型语料库的构建步骤和具体在教学中的应用,并介绍了一些语料库构建的工具和软件。结合实际,对个人语料库建设提出了一些意见。
  关键词: 小型语料库 英语教学 模式构建
  
  一、引言
  语料库语言学(corpus linguistics)是20世纪中后期兴起的一门语言学研究领域。语料库语言学是指专门对大规模储存于计算机里的语料库进行研究的学问。语料库是一个由大量在真实情况下使用的语言信息集成的、可供计算机检索的、专门作研究使用的巨型资料库。它以其容量大、语料真实、检索快捷准确等独特的优势在现代语言学研究和语言教育汇中发挥着越来越重要的作用(何安平,2004)。随着计算机技术的高速发展,语料库语言学也随之成为现代语言学的一个最重要的分支。目前语料库已经广泛地应用在语言学研究的诸多方面,如词典编撰、教材编写、语言教学、语言本质研究、文学研究、翻译比较等。通常这些研究都是比较大型的语料库或是少数研究者进行研究的工具,对英语教学的意义不大。一些大规模的语料库针在条件有限的情况下很难获得,费用很高。而且大多数通用语料库的建设目的是为了语言现象调查研究或是词典等的编撰,对于英语普通学习者来说不是很适用。另外,由于大型语料库讲求平衡语料库选取语料,在教学方面不如临时自建的小型语料库更有针对性。所以在英语教学当中,建设小型的学习者语料库是十分必要和有成效的。笔者根据个人建库的实例从构建小型语料库的可实施性,以及小型语料库的构建方法等方面作具体论述。
  二、小型语料库的构建
  建立小型语料库首先需要明确一些问题和因素。Graeme(2000)指出建立语料库要考虑的因素有建库的目的、语料品种、取样标准、规模、代表性、设备、存贮方式与格式等。笔者认为这些因素当中建库的目的尤为重要。这一点Sinclair在他的《语料库、索引与搭配》也指出,语料库的构建,他首先考虑的是建库的目的。
  通常人们认为构建语料库是一项很费事费力的工程,甚至认为它很神秘,其实构建个人的小型语料库是很可行的。对于教师来说,完全可以自己构建一个教学语料库,用来指导教学工作。例如学生写作的语料库。
  (一)语料的选择与分类
  为了保证语料的真实性,语料可以从网上或是光盘获取,也可以自己收集学生的资料。网上语料丰富,本身就是一个巨大的语料库。可以运用各种搜索引擎,例如百度、Google、Yahoo等。也可以运用一些数字图书馆、电子图书来收集你想要的资料。收集的语料也不是简单的堆砌,必须根据一定的原则来分类。笔者收集的语料库是英语专业学生的口语语料库。语料来自于日常对学生的口语测试,通过录音的形式获得最原始的材料,所以笔者的语料属于口语语料。口语语料库构建的工作量很大。首先是话题的选择,笔者共选择十个方面一百个话题进行口语测试,耗时半年的时间。之后的工作是对原始语料进行转写以便获得纯文本。转写遵循的是真实原则、完整原则和准确原则。之后的分类再以语域为主,来源时间兼顾的原则进行细分。分类后的语料文件名也要保持统一,并尽可能地体现分类信息。比如笔者对关于教育类的语料统一命名为“education time 来源”,这样便于查找。
  (二)语料标注
  语料整理好之后要对其进行标注。把语料的有用信息用符号一一标注出来,以便用检索软件进行查找。标注有很多类型,主要是词性标注、句法标注及对篇章的具体信息进行创造性的标注。笔者主要运用的是词性标注。笔者着重介绍词性标注的工具及方法。
  常用的词性标注软件是CLAWS,他的准确率很高,达到99%。我们比较熟悉的BNC就是用CLAWS标注的,但是此软件是付费的。对于英语教师来说,有一些免费又准确率很高的软件可以选择。GoTagger就是很好的一款软件,他是Goto Kazuaki(日本)所开发的一款简便的词性赋码软件,以Delphi写成,所以不需要ActiveX或Dll文件而可以直接在Windows上运行。我们可以在http://uluru.lang.osaka-u.ac.jp/~k-goto/use_gotagger_e.html网站上获得此软件。GoTagger不兼容中文,所以电脑中的文件夹以英文来命名会方便查找。经过赋码的文件会自动保存。GoTagger的优点是可以批量处理文件,将我们需要的大量文件一次性处理。
  语料经过收集分类和赋码之后存储在文件夹下,小型语料库的构建就基本上完成了。这些工作看似简单,却需要花费大量的人力和精力。建好的语料库就可以进行索引了。在这里介绍些比较好的检索软件,例如Wordsmith,Sara,AntConc, Concordance等。比如Concordance从最初的语料获取到检索都很方便。它使用的是Windows界面,提供了众多功能,可以生成此表、索引、词语搭配记忆各种数据统计、查看关键词的上下文等。
  三、结语
  个人小型教学语料库的构建是未来语言教学的一个发展方向。它的好处显而易见,有效方便而且简单易行。同时这也可以是一个师生共同协作的活动,师生共同完成效果更佳。但是语料库只是一个工具,教师要合理而有效地运用它,而不能过分依赖它。教师还可以探索出更多类型更多方面的语料库,以便更好地应用到教学当中。总之,笔者希望越来越多的教师可以加入到小型教学语料库的构建队伍中来,加大语料库教学的普及。
  
  参考文献:
  [1]Dash,N.S.Corpus Linguistics and Language Teaching.India:New Delhi,2005.
  [2]Kennedy,Graeme.An Introduction to Corpus Linguistics.Beijing:Foreign Language Teaching and Research Press,2000.
  [3]何安平.语料库语言学在教学中的应用.广州:广东高等教育出版社,2004.
  [4]濮建忠,李文中.语料库索引在外语教学中的应用.解放军外国语学院学报,2001,(2).
  [5]卫乃兴,李文中,濮建忠等.语料库应用研究.上海:上海外语教育出版社,2005.
  [6]杨惠中主编.语料库语言学导论.上海:上海外语教育出版社,2002.
其他文献
用分析试剂配制了C[*v3*]S含Fe[*+*]或Fe[*+*]的两个系列固溶体样品穆穆斯堡尔谱研究表明,Fe[*+*]在C[*v3*]S晶格中的取代型式为:4Fe[*+*]取代4Si[*+*},1Fe[*+*]取代1Ca[*+*],1Fe
会议
该文通过X-射线粉末衍射研究了TmO-SrO-CuO三元相关系。所有的样品都在950℃在空气中采用粉末烧结法合成。在此温度下,TmO-SrO-CuO体系不存在三元化 合物。整个相图可分为六个
2009年8月12日下午4时,GREEN当代艺术展2009新闻发布会在798艺术区尤伦斯当代艺术中心隆重举行,主办方北京中艺博文化传播有限公司董事长王一涵女士,联合主办方航美传媒负责
该文用X—射线衍射、电子衍射和扫描电子显微镜研究了xTiOPc的结构与形态。结果表明它确实是一种不同于已知的α—型和β—型的新晶型。