论文部分内容阅读
[摘 要] 将近些年语料库语言学中针对口笔语的研究方法迁移至高职EGP写作的评估中,以云南能源职业技术学院2018级全体学生作文组建的语料库为研究对象,通过分析对比相关数据,从整体上对当前云南能源职业技术学院乃至同类型的高职院校学生的英语写作能力有进一步了解,填补高职院校在EGP写作语料库研究方面的短板,并为下一步的EGP教学改革提供一定的量化依据。
[关 键 词] 写作;语料库;量化研究
[中图分类号] G712 [文献标志码] A [文章编号] 2096-0603(2020)41-0064-02
一、引言
(一)语料库语言学研究现状
20世纪60年代初,语料库语言学便已问世。国外学者Meyer认为“语料库语言学主要是一种语言研究方法,而不是语言学中的一个独立的研究范式”[1]。而在国内,何中清和彭宣维认为“它以大量真实的语言数据为研究对象,进行多层次和全方位研究,揭示语言现象隐含的普遍规律,它的出现对语言研究产生了巨大影响”[2]。在经历半个多世纪的发展后,当前的语料库语言学已成为一个计算机科学与语言学交叉发展的热点领域。
(二)选题意义
对学生写作质量的评估是一个极为重要的研究热点,但绝大多数高职院校教师仍在使用人工逐一审阅和定性描述的方法对学生作文进行评估,很难面向同行或学生给出令人信服、标准规范化的质量评估结论。所以,将语料库理论和研究方法引入高职院校英语写作教学中,在微观方面可为教师的教學工作提供更好的“诊断”手段,为学生自主学习提供更好的指导。在宏观层面,基于量化数据的评估结论也可为学校乃至教育主管部门提供更好的英语教学改革依据,让教学改革做到“对症下药”“有的放矢”。
二、研究设计
(一)语料库建设
本项目以云南能源职业技术学院2018级全体学生的客观写作材料为研究对象,以语料库为研究方法,得出相关的标志性参数,并参考中国学习者英语语料库(CLEC)、布朗语料库(Brown Corpus)同类型数据参数,以此得出对比结论。
首先,项目组通过机辅写作软件采集云南能源职业技术学院2018级全体学生的作文共2670篇,40多万个英文单词。因为本项目的目的是对学生的写作质量进行评估,在语料收集完毕后,我们对语料进行了处理,把作文中相关性较小的内容,如标题以及人名等删除。其次,我们利用Free CLAWS web tagger在线词性标注软件,依据UCREL CLAWS5 Tagset的标准对语料内容进行标注,把语料库的词性(POS)标注出来,最终将云南能源职业技术学院2018级学生作文库命名为YVIET2018。
(二)数据分析
完成语料库的标注与处理之后,我们利用Wordsmith3.0对观察语料库YVIET2018与参照语料库CLEC、Brown Corpus的数据进行提取。
1.标准化类形符比(STTR)
形符(token)是指语料库中的一切单词,包括反复运用过的单词,即语料库中所有单词的总数。类符(type)是指语料库中一切不反复的单词的总数。类形符比(TTR, type-token ratio),是指语料中呈现的类符与形符的比率,它标志着语料库中词汇的多样性或者词汇的丰沛度(lexical density)。但语料库体量的大小对TTR值有一定的影响,所以我们采用标准化类符形符比(STTR, standardized type-token ratio),即大小为1000词的连续多个语料库的平均类形符比,以此对比不相同的多个语料库的类形符比差异,参数更加可信。由此,我们得出了3个语料库的STTR值。YVIET2018的数据是38.37,CLEC是32.8,而Brown是39.04,说明在词汇丰沛度方面,云南能源职业技术学院2018级学生的整体情况优于国内英语学习者的平均水平,在写作中更加善于使用多样化的词汇表达,更加接近源自英语母语国家的语料库BROWN的水平。
2.词汇密度(lexical density)
词汇密度这一概念最早由Ure提出。他认为词汇密度的计算公式为实词数除以词汇总数所得百分比[3]。而Halliday认为语法词反映的是句子的流畅度和表达清晰度(explicitness)以及可预测性(predictability)[4]。而词汇词反映的是文本所含的信息量(information load)。
所以,我们使用Wordsmith3.0对三个语料库的标注结果进行了检索和统计。因检索结果过于复杂庞大,这里不再详细列出。我们检索了名词(Noun)、动词(Verb)、形容词(Adjective)、副词(Adverbial)四大类词。YVIET2018语料库的实词密度为59.39%,其次是CLEC语料库,为53.28,而最小的是BROWN语料库,为48.93%。综合来看,YVIET2018语料库实词比例明显过多,说明云南能源职业技术学院2018级学生在写作技巧上仍有明显的短板,虽然文本承载的信息量丰富,但这样的文本会给读者在理解文本信息时带来困难,不善于使用虚词,文本的清晰度与流畅度稍差一些。因为BROWN语料库所收集的语料均来自美国,故而在文本信息量和清晰度、流畅度平衡度方面是三者中最好的。 3.高频词(high frequency words)
在语料库语言学的分析方法中,频率是一种非常重要的研究手段。Sinclair(1991:31)提出,语料库中高频词的分布较为稳定,因此频率排序的任何显著变化都有可能具有重要意义[5]。而Laviosa指出,高频词(“list head”or “high frequency words”)是一个词汇出现的次数与特定语料库所有形符的比例不少于0.01%[6]。在本研究中,我们通过Wordsmith3.0对三个语料库的词频进行了检索和统计。根据这一结果我们得出,高频词数量最多的语料库是YVIET2018,其累计占比为68.83%,是三个语料库中最多的,而BROWN语料库仅有高频词85项,占比38.81%,是三者中最少的,而CLEC语料库介于两者之间,这符合项目组的预期值。数据结果表明YVIET2018语料库词汇重复率是最高的,说明云南能源职业技术学院2018级的学生写作用词较为单调。BROWN语料库的词汇重复率是最低的,语料用词相对复杂,符合英语口笔语用词中避免重复而多用替换的原则。
4.词长(word-length)
对文本而言,文体正式程度往往与复杂词汇的数量成正比,即文体越正式,复杂词汇数量也就越多,反之亦然。为此,我们统计了三个语料库的词长。我们出乎意料地发现YVIET2018语料库的平均词长高于CLEC和BROWN,达到了4.80,BROWN語料库为4.48,CLEC语料库仅为4.07。但经我们仔细观察分析发现,就7个字母以上的单词而言,YVIET2018的词汇数量远远少于BROWN。由统计结果我们可以得出,云南能源职业技术学院2018级的学生在写作过程中对复杂词有偏好,但这样会使作文文体过于正式和严肃,并给读者理解信息带来一定困难甚至偏差。
5.平均句长(mean sentence length)
平均句长统计的是语料库中每一个句子中平均包含的词汇数量,这一指标能够在一定程度上反映句子的复杂度。通常来说,长句中包含的信息量更多,逻辑关系更复杂,对作者和读者的写作能力与理解能力要求都比较高。这里,我们统计出3个语料库的平均句长和句长标准差2个数据,YVIET2018的平均句长为17.88,比起CLEC的14.75,更加接近BROWN的19.47,说明云南能源职业技术学院2018级学生作文的句子复杂度更大,句子较为复杂。但YVIET2018的句长标准差为12.87高于CLEC的10.47,也说明云南能源职业技术学院2018级学生的作文水平个体差异是更加明显的,个体之间的水平差距比较大。
三、结语
通过本次项目,我们以语料库语言学为研究方法,使用wordsmith等工具,深入调查研究了云南能源职业技术学院2018级学生的写作情况,并得出了量化数据为支撑的对比结论,并将借此结论在下一步的大学英语教学中开展相关教学实验。这对我校乃至高职院校的大学英语教学都是一次十分有益的尝试。但受限于项目组能力等其他客观因素,未能对学生作文的写作语境、读者反馈等环节领域开展深入研究。在下一步的研究中,我们还将持续扩展云南能源职业技术学院学生作文语料库,开展历时性语料库研究。
参考文献:
[1]张新杰.国内语料库语言学研究:回顾与展望:基于核心期刊24年文献的统计分析[J].西安外国语大学学报,2017(6):36-41.
[2]何中清,彭宣维.英语语料库研究综述:回顾、现状与展望[J].外语教学,2011(1):6-11.
[3]李德超,王克非.汉英同传中词汇模式的语料库考察[J].现代外语,2012(4):409-415.
[4]吴菲.国内外英语语料库的建设和发展评论[J].山东外语教学,2007(6):28-31.
[5]王天剑.基于语料库的中国《政府工作报告》英语本词汇特征研究[J].当代外语研究,2010(6):39-43.
[6]赵秋荣,王克非.英译汉翻译语言的阶段性特点:基于历时类比语料库的考察[J].中国翻译,2013(3):15-19.
编辑 冯永霞
[关 键 词] 写作;语料库;量化研究
[中图分类号] G712 [文献标志码] A [文章编号] 2096-0603(2020)41-0064-02
一、引言
(一)语料库语言学研究现状
20世纪60年代初,语料库语言学便已问世。国外学者Meyer认为“语料库语言学主要是一种语言研究方法,而不是语言学中的一个独立的研究范式”[1]。而在国内,何中清和彭宣维认为“它以大量真实的语言数据为研究对象,进行多层次和全方位研究,揭示语言现象隐含的普遍规律,它的出现对语言研究产生了巨大影响”[2]。在经历半个多世纪的发展后,当前的语料库语言学已成为一个计算机科学与语言学交叉发展的热点领域。
(二)选题意义
对学生写作质量的评估是一个极为重要的研究热点,但绝大多数高职院校教师仍在使用人工逐一审阅和定性描述的方法对学生作文进行评估,很难面向同行或学生给出令人信服、标准规范化的质量评估结论。所以,将语料库理论和研究方法引入高职院校英语写作教学中,在微观方面可为教师的教學工作提供更好的“诊断”手段,为学生自主学习提供更好的指导。在宏观层面,基于量化数据的评估结论也可为学校乃至教育主管部门提供更好的英语教学改革依据,让教学改革做到“对症下药”“有的放矢”。
二、研究设计
(一)语料库建设
本项目以云南能源职业技术学院2018级全体学生的客观写作材料为研究对象,以语料库为研究方法,得出相关的标志性参数,并参考中国学习者英语语料库(CLEC)、布朗语料库(Brown Corpus)同类型数据参数,以此得出对比结论。
首先,项目组通过机辅写作软件采集云南能源职业技术学院2018级全体学生的作文共2670篇,40多万个英文单词。因为本项目的目的是对学生的写作质量进行评估,在语料收集完毕后,我们对语料进行了处理,把作文中相关性较小的内容,如标题以及人名等删除。其次,我们利用Free CLAWS web tagger在线词性标注软件,依据UCREL CLAWS5 Tagset的标准对语料内容进行标注,把语料库的词性(POS)标注出来,最终将云南能源职业技术学院2018级学生作文库命名为YVIET2018。
(二)数据分析
完成语料库的标注与处理之后,我们利用Wordsmith3.0对观察语料库YVIET2018与参照语料库CLEC、Brown Corpus的数据进行提取。
1.标准化类形符比(STTR)
形符(token)是指语料库中的一切单词,包括反复运用过的单词,即语料库中所有单词的总数。类符(type)是指语料库中一切不反复的单词的总数。类形符比(TTR, type-token ratio),是指语料中呈现的类符与形符的比率,它标志着语料库中词汇的多样性或者词汇的丰沛度(lexical density)。但语料库体量的大小对TTR值有一定的影响,所以我们采用标准化类符形符比(STTR, standardized type-token ratio),即大小为1000词的连续多个语料库的平均类形符比,以此对比不相同的多个语料库的类形符比差异,参数更加可信。由此,我们得出了3个语料库的STTR值。YVIET2018的数据是38.37,CLEC是32.8,而Brown是39.04,说明在词汇丰沛度方面,云南能源职业技术学院2018级学生的整体情况优于国内英语学习者的平均水平,在写作中更加善于使用多样化的词汇表达,更加接近源自英语母语国家的语料库BROWN的水平。
2.词汇密度(lexical density)
词汇密度这一概念最早由Ure提出。他认为词汇密度的计算公式为实词数除以词汇总数所得百分比[3]。而Halliday认为语法词反映的是句子的流畅度和表达清晰度(explicitness)以及可预测性(predictability)[4]。而词汇词反映的是文本所含的信息量(information load)。
所以,我们使用Wordsmith3.0对三个语料库的标注结果进行了检索和统计。因检索结果过于复杂庞大,这里不再详细列出。我们检索了名词(Noun)、动词(Verb)、形容词(Adjective)、副词(Adverbial)四大类词。YVIET2018语料库的实词密度为59.39%,其次是CLEC语料库,为53.28,而最小的是BROWN语料库,为48.93%。综合来看,YVIET2018语料库实词比例明显过多,说明云南能源职业技术学院2018级学生在写作技巧上仍有明显的短板,虽然文本承载的信息量丰富,但这样的文本会给读者在理解文本信息时带来困难,不善于使用虚词,文本的清晰度与流畅度稍差一些。因为BROWN语料库所收集的语料均来自美国,故而在文本信息量和清晰度、流畅度平衡度方面是三者中最好的。 3.高频词(high frequency words)
在语料库语言学的分析方法中,频率是一种非常重要的研究手段。Sinclair(1991:31)提出,语料库中高频词的分布较为稳定,因此频率排序的任何显著变化都有可能具有重要意义[5]。而Laviosa指出,高频词(“list head”or “high frequency words”)是一个词汇出现的次数与特定语料库所有形符的比例不少于0.01%[6]。在本研究中,我们通过Wordsmith3.0对三个语料库的词频进行了检索和统计。根据这一结果我们得出,高频词数量最多的语料库是YVIET2018,其累计占比为68.83%,是三个语料库中最多的,而BROWN语料库仅有高频词85项,占比38.81%,是三者中最少的,而CLEC语料库介于两者之间,这符合项目组的预期值。数据结果表明YVIET2018语料库词汇重复率是最高的,说明云南能源职业技术学院2018级的学生写作用词较为单调。BROWN语料库的词汇重复率是最低的,语料用词相对复杂,符合英语口笔语用词中避免重复而多用替换的原则。
4.词长(word-length)
对文本而言,文体正式程度往往与复杂词汇的数量成正比,即文体越正式,复杂词汇数量也就越多,反之亦然。为此,我们统计了三个语料库的词长。我们出乎意料地发现YVIET2018语料库的平均词长高于CLEC和BROWN,达到了4.80,BROWN語料库为4.48,CLEC语料库仅为4.07。但经我们仔细观察分析发现,就7个字母以上的单词而言,YVIET2018的词汇数量远远少于BROWN。由统计结果我们可以得出,云南能源职业技术学院2018级的学生在写作过程中对复杂词有偏好,但这样会使作文文体过于正式和严肃,并给读者理解信息带来一定困难甚至偏差。
5.平均句长(mean sentence length)
平均句长统计的是语料库中每一个句子中平均包含的词汇数量,这一指标能够在一定程度上反映句子的复杂度。通常来说,长句中包含的信息量更多,逻辑关系更复杂,对作者和读者的写作能力与理解能力要求都比较高。这里,我们统计出3个语料库的平均句长和句长标准差2个数据,YVIET2018的平均句长为17.88,比起CLEC的14.75,更加接近BROWN的19.47,说明云南能源职业技术学院2018级学生作文的句子复杂度更大,句子较为复杂。但YVIET2018的句长标准差为12.87高于CLEC的10.47,也说明云南能源职业技术学院2018级学生的作文水平个体差异是更加明显的,个体之间的水平差距比较大。
三、结语
通过本次项目,我们以语料库语言学为研究方法,使用wordsmith等工具,深入调查研究了云南能源职业技术学院2018级学生的写作情况,并得出了量化数据为支撑的对比结论,并将借此结论在下一步的大学英语教学中开展相关教学实验。这对我校乃至高职院校的大学英语教学都是一次十分有益的尝试。但受限于项目组能力等其他客观因素,未能对学生作文的写作语境、读者反馈等环节领域开展深入研究。在下一步的研究中,我们还将持续扩展云南能源职业技术学院学生作文语料库,开展历时性语料库研究。
参考文献:
[1]张新杰.国内语料库语言学研究:回顾与展望:基于核心期刊24年文献的统计分析[J].西安外国语大学学报,2017(6):36-41.
[2]何中清,彭宣维.英语语料库研究综述:回顾、现状与展望[J].外语教学,2011(1):6-11.
[3]李德超,王克非.汉英同传中词汇模式的语料库考察[J].现代外语,2012(4):409-415.
[4]吴菲.国内外英语语料库的建设和发展评论[J].山东外语教学,2007(6):28-31.
[5]王天剑.基于语料库的中国《政府工作报告》英语本词汇特征研究[J].当代外语研究,2010(6):39-43.
[6]赵秋荣,王克非.英译汉翻译语言的阶段性特点:基于历时类比语料库的考察[J].中国翻译,2013(3):15-19.
编辑 冯永霞