论文部分内容阅读
该文讨论了语料库设计阶段的五个因素,即抽样方法、语言总体定义、库类别、库结构、库大小,如何影响语料库的代表性,重点是对库大小因素的分析,因为在现阶段只有在这一方面能进行实证研究.在第一章,作者首先简要地定义了语料库和语料库的代表性,提出在设计阶段正是以上五个主要因素影响着语料库的代表性,并且论述了研究这些因素在理论和实践上的意义.在第二章,作者比较了简单随机抽样和分层抽样各自的长处,得出结论:后者要比前者更能反映语言总体,因而被当作是语料库建设的标准抽样方法.在第三章,作者首先讨论了语料库设计中语言总体定义的重要性和困难,然后提出在定义过程中要注意语言产生和接受、外部标准和内部标准两个区分,并且得出结论:在语料库设计阶段定义语言总体时,对语言产生和接受都要考虑,而且主要遵照非语言的外部标准.作者还介绍了如何从时间、地域、社会语言学、类别等四个方面对语言总体进行定义,以及如何利用现成的印刷品、文件等的目录和索引建立抽样框架,作为抽样时使用的语言总体的成分清单.第四章比较了静态语料库和动态语料库的优点.第五章探讨了如何设计语料库的结构,使其更具代表性.在第六章,作者认为,语料库的大小因素既涉及语料库的总词数、总文本数(总体大小),又包括各个文本类型内的文本数(文本类型大小),还跟单个文本的长度有关.关于文本的大小,作者认为一个具有代表性的静态语料库应该收集等长的文本.该文的第七章是对全文的一个总结,并且提出了在语料库设计中代表性问题研究的下一步的方向.