论文部分内容阅读
基于真实的语言数据,语料库语言学以概率的手段从宏观角度进行语言分析,越来越受到语言研究者的青睐。语料库是语料库语言学的研究基础,建设一个全面、具有代表性的语料库对研究结果具有极其重要的意义。语料库的建设需要考虑诸多因素,如建库大小,语料的来源、类型等等。语料库具不具有代表性,语料是否能全面的代表所要研究领域,折射出语料库的结构是否合理。语料库的结构主要涉及语料的分层标准及其在语料库中所占的相应比例两方面。本文由调查西方主要语料库的结构着手,借鉴系统功能语言学,研究试回答语料库在结构安排上存在何种潜在规律。系统功能语言学创始人韩礼德对语言有过系统的阐述。他认为语言整体上是一个连续体,口语和书面语处于连续体的两端。并且特别的指出居于连续体中间的语体既有口语特征,也具有书面语特征,同时向两端延伸演化为典型口语和书面语。连续体理论反对书面语第一位或口语第一位的论调,从语体上全面、辩证统一的描述了语言。借助于该理论,作者发现SEU语料库、Brown语料库、LOB语料库以及ICE-GB语料库的结构充分考虑了语体的因素,尤以SEU语料库最为突出。SEU中采取written origin、scripted to be spoken、Spoken origin三大主划分,语体从书面语逐步发展为口语。其中scripted to be spoken分层标准包括访谈、剧本、演讲稿等,精确的体现了连续体的口语和书面语的连续。Brown、LOB语料库未收录口语语体,正因为如此,它对书面语的归类具有示范性作用。参照连续体示意图,文章把综上分析结果以及各个主要分层比例一一对映于该坐标,最后得出了一个比较对称的图行,表明了这些语料库具有较好的代表性。但是,语体的分层标准并不是唯一的分类理据,诸如BNC语料库、LLELC语料库、MCLC语料库却采用学科划分标准,比如applied science, social science, arts等等。进一步的研究发现这两类分层标准并不是孤立的,ICE-GB中的learned and the popular分类的子分支沿用了social sciences, natural sciences,这证实该语料库同时采用了两类分层模式。以上两种分层样式是较常见的语料库结构安排策略。未囿于此,该研究以自建英语专业相关知识语料库的结构为例,从实际出发,深入探讨其结构构建。首先基于英语专业的实习日志数据,分析学生所从事的行业以及英语用途,从而有效的表针社会对英语专业相关知识的需求。研究采用了2006届102名毕业生的实习日志,经过统计,34名同学未从事英语相关的职业。根据每个学生实习日志所关注的重点,剩余学生实习内容主要涉及外贸英语、英语教学、英语翻译、文秘英语、机械英语等行业。按照各个行业实际参入人数,计算出相应所占比例,从而得出各个层次的比重。借鉴学科分层模式,结合行业统计,文章初步给出了外贸、机械、计算机、教学等分层参考样式。每个分层之下,以外贸英语为例,本文运用连续体理论下语料库结构分析成果,尝试性的探讨了如何进行具体划分和收集语料。着眼于主要西方语料库结构分析,本文结合实例探讨语料库结构划分。但因研究时间、精力有限,本文仍然存在不少亟待完善之处。仅仅102名学生的日志并不能有效的代表所有英语专业相关知识范畴。例如,所有的学生可能未从事与法律有关的英语工作,但这不能说明英语专业相关知识就不囊括法律英语。因此,后期研究仍期望有待进行。尽管如此,本文主要意在开拓一种新思路,为自建语料库,特别是语料库的结构安排提供建设性的借鉴。随着小型语料库不断受到言语工作者的重视,希望本文对语料库建设理论有所裨益。