论文部分内容阅读
摘 要:文章从英语词汇和词束使用两个角度研究了狄更斯小说的语言使用特点。利用RANGE软件和通用词表GSL对小说中使用的通用词汇进行覆盖率研究,利用AntConc对其中的词束使用进行检索和分析。结果表明,小说中的通用词汇占据了相当大的比例,词束也是由常见的词汇构成。这说明语言的庶民性特点是狄更斯小说被广泛阅读的原因之一。
关键词:狄更斯小说 覆盖率 词束
狄更斯是杰出的19世纪英国作家,狄更斯本人非常关注英国下层社会和底层人民的生活,其作品往往通过社会底层的人物反映当时的英国社会现实,利用小说中的人物遭遇来批判现实社会。他的作品以风趣幽默的语言直击当时社会的诟病和残酷。在说英语的国家,狄更斯小说被广泛阅读。在我国,也得到不同视角的研究。以往研究多从语言特色、写作背景、写作手法等方面,而对小说中的词汇使用和词束使用的语料库分析几乎没有涉及。
一、通用词汇和词束
通用词汇列表GSL(即general service list)是由West(1953)创建的高频词汇列表,词表包括2284个高频使用的核心词汇。一般认为,GSL占到阅读的70%至80%。虽然这一词表创建于20世纪中叶,但是至今都在被广泛使用,成为其他学术词汇列表创建、英语教材编写、英语词汇学习的重要参考。GSL因其反映了最核心、最高频的词汇使用,被视为英语学习的一个重要指标。
词束(lexical bundles)是指语言中通常结伴出现、被高频使用的词项组合。这种组合可以是两词搭配,例如dark night,也可以是三词甚至可以是四词词束,如by and large、it is true that。语言在很大程度上是由这些固定或半固定的词汇序列组成的,这种预制语块在语言中起到构建语篇、语言流利性的重要作用。Erman & Warren (2000)认为程式化的语言表达占到了英语口语语篇的58.6%,占到书面写作的52.3%。心理学研究发现,这些词项组合是以整体形式提取和加工的。也就是说,如果一篇文章中的这些常用词束都是读者熟悉的词汇组合,那么将能维持阅读兴趣和信心,保证阅读的顺畅性。因此,大众化的词汇和语言使用是一部作品能够被广泛接受的重要因素之一。本研究将选取狄更斯的三部经典小说《雾都孤儿》《双城记》《艰难时世》进行词汇和词束使用分析。为此,将创建语料库,利用工具RANGE和AntConc获取通用词汇和三词词束使用情况,以客观的数据论证狄更斯的小说在词汇和语言上的“亲民”特点。
二、研究方法
(一)研究工具
(1)RANGE工具。这款工具是一款免费软件,可以从网上下载。RANGE软件附带三个底表(baseword),都来自GSL词表。GSL中按照频率排列的前1000个基础词汇作为baseword1,另外1000个词汇作为baseword2,第三个底表baseword3是2000个基础词汇之外的其他词汇。在底表的基础上运行RANGE工具,会得到很多重要的词汇使用信息,包括三种词表中的词汇使用比例、词表中的词组使用、词表之外的词汇比例、词表中的词汇在不同文本中的分布等。(2)AntConc是调取词束使用的软件。这款软件现在已经被广泛用于语料库分析,它可以用来处理干净文本和附码语料。这款软件可以帮助我们生成文本的词频列表、词汇使用检索行、词束,并进行词的搭配力计算等。
(二)研究过程和数据分析
本研究所用软件只限于处理txt文本格式的语料分析,因此需要对原版英文小说《雾都孤儿》《双城记》《艰难时世》PDF格式进行格式转换,保存为txt文本格式。本研究获得的通用词汇覆盖率和词束均是通过软件自动生成,作者对所得结果将进行定性分析。
三、结果与分析
(一)小说中的通用词汇使用
运行RANGE软件生成的GSL在三部小说中的覆盖率结果显示在表1中。由表1的最后一行数据可知,三部小说形符数(即字数)共计46073,类符数(不同形式的独立的词)是28829。表1中间数据是GSL三个阶段划分的词汇使用情况:前1000个词汇在小说中占到74%,这部分词汇多由代词、冠词等英语语言中最基础的词汇构成,占到最大比例,这反映了小说能贴近生活;第二个1000个词汇占到5.6%,其他词汇占到1.5%。整个GSL在小说中的覆盖率为81.4%。这一结果稍微高于普遍认为的通用词汇占到阅读的70%至80%。因此说明狄更斯的小说大量使用了通俗易懂的语言,这也是小说能够在普通读者中被广泛阅读的原因。
作为英语学习者,我国高中生阶段的英语词汇量一般为3500个左右,普通本科阶段学生在4500至5500个左右。GSL所包含的2284个词汇相当于普通高中生的词汇量。也就是说,作为高中水平以上的英语学习者,在阅读狄更斯的作品时,词汇问题并非是主要的阅读困难。
(二)小说中的词束使用
一般的词束研究中,通常以三词和四词组合居多。本研究只考察三词词束的使用情况。利用软件AntConc的词束(N-gram)提取功能,获取语料库中的三词词束。结果显示,小说中重要使用的词束结构是
“said**”,或者“**said”,表示“某人说”。小说中,人物之间的直接对话比较多,这也是叙事性小说的特点之一。said是一个重要而又极为常用的汇报性动词,小说中大量使用said,直接明了地交代了叙事内容和人物关系。“that he had、that it was、 that I have、 that I am”,这些包含that从句的结构也是小说中频繁使用的词束。Biber & Gray (2010)研究指出,口语语篇和小说语篇的语言特点往往以嵌入式的从句形式为特点,从句所传达的句间关系更加明确,句义清晰,这也成就了狄更斯小说语言清晰明丽的特点。另外,在这些高频使用的词束中,还有一个重要的特征是第一人称I的使用。狄更斯让人物自己通过直接引语的形式展现身份,达到人物刻画的目的,例如“I have been,I am not,I can’t,I do not”等。同时,人物对话通过使用第一人称代词描述人物形象,更具有生活气息。也正是这种拉近读者距离的语言使用,搭建了读者和作者之间的一座桥梁。从整体上来看,高频使用词束绝大多数都和小说中的人物有关,体现在各种人称的使用上,如“I、Mr Lorry”等,这些人物名称和代词的使用也能让读者有阅读的轻松感,缩短与小说人物的距离。 四、结论
本文通过创建狄更斯三部经典小说的语料库,从通用词汇覆盖率和词束使用两个角度分析了狄更斯小说的词汇特色。狄更斯以通俗的大众化的语言塑造了不同的人物形象,也正是平实清丽的语言使用拉近了读者和小说的距离,使其成为深受读者欢迎的反映现实的经典作品。从通用词汇和词束两方面分析研究狄更斯的作品,有助于我们从另一个角度认识狄更斯作品的语言特色,以及了解它能走进读者心中的原因。同时,我们也希望将不同作家作品中的语言使用进行对比研究。另外,笔者认为从词束和通用词汇角度分析狄更斯小说的词汇特色,客观地论证了狄更斯小说在我国英语学习者中的推广性。我国英语学习者,包括高中生和大学生,已经具备了一般性阅读的词汇量,在英语学习上,急需高质量的语言输入。阅读经典原著不仅可以提升英语水平,更重要的是一种与经典著作的对话,在深入语言使用的语境中感受英语语言的力与美,同时达到提高文学修养的目的。
参考文献:
[1] Biber, D. & Conrad, S. “Lexical bundles in conversation and academic prose” in H. Hasselgrad & S. Oksefjell (eds): Out of Corpora: Studies in honor of Stig Johansson(pp. 181- 189)[M]. Rodopi,1999.
[2] Biber, D & Gray, B. Challenging stereotypes about academic writing: Complexity, elaboration, explicitness[J]. Journal of English for Academic Purpose, 2010 (9):2-20.
[3] Brezina, V. & Gablasova, D. Is there a core general vocabulary Introducing the New General Service List [J]. Applied linguistics, 2015 (1):1-22.
[4] Erman, B. & Warren, B. The idiom principle and the open choice principle [J]. Text, 2000 (1): 29-62.
[5] West, M. A General Service List of English Words: With Semantic Frequencies and a Supplementary Word-List for the Writing of Popular Science and Technology [M].Longman,1953.
关键词:狄更斯小说 覆盖率 词束
狄更斯是杰出的19世纪英国作家,狄更斯本人非常关注英国下层社会和底层人民的生活,其作品往往通过社会底层的人物反映当时的英国社会现实,利用小说中的人物遭遇来批判现实社会。他的作品以风趣幽默的语言直击当时社会的诟病和残酷。在说英语的国家,狄更斯小说被广泛阅读。在我国,也得到不同视角的研究。以往研究多从语言特色、写作背景、写作手法等方面,而对小说中的词汇使用和词束使用的语料库分析几乎没有涉及。
一、通用词汇和词束
通用词汇列表GSL(即general service list)是由West(1953)创建的高频词汇列表,词表包括2284个高频使用的核心词汇。一般认为,GSL占到阅读的70%至80%。虽然这一词表创建于20世纪中叶,但是至今都在被广泛使用,成为其他学术词汇列表创建、英语教材编写、英语词汇学习的重要参考。GSL因其反映了最核心、最高频的词汇使用,被视为英语学习的一个重要指标。
词束(lexical bundles)是指语言中通常结伴出现、被高频使用的词项组合。这种组合可以是两词搭配,例如dark night,也可以是三词甚至可以是四词词束,如by and large、it is true that。语言在很大程度上是由这些固定或半固定的词汇序列组成的,这种预制语块在语言中起到构建语篇、语言流利性的重要作用。Erman & Warren (2000)认为程式化的语言表达占到了英语口语语篇的58.6%,占到书面写作的52.3%。心理学研究发现,这些词项组合是以整体形式提取和加工的。也就是说,如果一篇文章中的这些常用词束都是读者熟悉的词汇组合,那么将能维持阅读兴趣和信心,保证阅读的顺畅性。因此,大众化的词汇和语言使用是一部作品能够被广泛接受的重要因素之一。本研究将选取狄更斯的三部经典小说《雾都孤儿》《双城记》《艰难时世》进行词汇和词束使用分析。为此,将创建语料库,利用工具RANGE和AntConc获取通用词汇和三词词束使用情况,以客观的数据论证狄更斯的小说在词汇和语言上的“亲民”特点。
二、研究方法
(一)研究工具
(1)RANGE工具。这款工具是一款免费软件,可以从网上下载。RANGE软件附带三个底表(baseword),都来自GSL词表。GSL中按照频率排列的前1000个基础词汇作为baseword1,另外1000个词汇作为baseword2,第三个底表baseword3是2000个基础词汇之外的其他词汇。在底表的基础上运行RANGE工具,会得到很多重要的词汇使用信息,包括三种词表中的词汇使用比例、词表中的词组使用、词表之外的词汇比例、词表中的词汇在不同文本中的分布等。(2)AntConc是调取词束使用的软件。这款软件现在已经被广泛用于语料库分析,它可以用来处理干净文本和附码语料。这款软件可以帮助我们生成文本的词频列表、词汇使用检索行、词束,并进行词的搭配力计算等。
(二)研究过程和数据分析
本研究所用软件只限于处理txt文本格式的语料分析,因此需要对原版英文小说《雾都孤儿》《双城记》《艰难时世》PDF格式进行格式转换,保存为txt文本格式。本研究获得的通用词汇覆盖率和词束均是通过软件自动生成,作者对所得结果将进行定性分析。
三、结果与分析
(一)小说中的通用词汇使用
运行RANGE软件生成的GSL在三部小说中的覆盖率结果显示在表1中。由表1的最后一行数据可知,三部小说形符数(即字数)共计46073,类符数(不同形式的独立的词)是28829。表1中间数据是GSL三个阶段划分的词汇使用情况:前1000个词汇在小说中占到74%,这部分词汇多由代词、冠词等英语语言中最基础的词汇构成,占到最大比例,这反映了小说能贴近生活;第二个1000个词汇占到5.6%,其他词汇占到1.5%。整个GSL在小说中的覆盖率为81.4%。这一结果稍微高于普遍认为的通用词汇占到阅读的70%至80%。因此说明狄更斯的小说大量使用了通俗易懂的语言,这也是小说能够在普通读者中被广泛阅读的原因。
作为英语学习者,我国高中生阶段的英语词汇量一般为3500个左右,普通本科阶段学生在4500至5500个左右。GSL所包含的2284个词汇相当于普通高中生的词汇量。也就是说,作为高中水平以上的英语学习者,在阅读狄更斯的作品时,词汇问题并非是主要的阅读困难。
(二)小说中的词束使用
一般的词束研究中,通常以三词和四词组合居多。本研究只考察三词词束的使用情况。利用软件AntConc的词束(N-gram)提取功能,获取语料库中的三词词束。结果显示,小说中重要使用的词束结构是
“said**”,或者“**said”,表示“某人说”。小说中,人物之间的直接对话比较多,这也是叙事性小说的特点之一。said是一个重要而又极为常用的汇报性动词,小说中大量使用said,直接明了地交代了叙事内容和人物关系。“that he had、that it was、 that I have、 that I am”,这些包含that从句的结构也是小说中频繁使用的词束。Biber & Gray (2010)研究指出,口语语篇和小说语篇的语言特点往往以嵌入式的从句形式为特点,从句所传达的句间关系更加明确,句义清晰,这也成就了狄更斯小说语言清晰明丽的特点。另外,在这些高频使用的词束中,还有一个重要的特征是第一人称I的使用。狄更斯让人物自己通过直接引语的形式展现身份,达到人物刻画的目的,例如“I have been,I am not,I can’t,I do not”等。同时,人物对话通过使用第一人称代词描述人物形象,更具有生活气息。也正是这种拉近读者距离的语言使用,搭建了读者和作者之间的一座桥梁。从整体上来看,高频使用词束绝大多数都和小说中的人物有关,体现在各种人称的使用上,如“I、Mr Lorry”等,这些人物名称和代词的使用也能让读者有阅读的轻松感,缩短与小说人物的距离。 四、结论
本文通过创建狄更斯三部经典小说的语料库,从通用词汇覆盖率和词束使用两个角度分析了狄更斯小说的词汇特色。狄更斯以通俗的大众化的语言塑造了不同的人物形象,也正是平实清丽的语言使用拉近了读者和小说的距离,使其成为深受读者欢迎的反映现实的经典作品。从通用词汇和词束两方面分析研究狄更斯的作品,有助于我们从另一个角度认识狄更斯作品的语言特色,以及了解它能走进读者心中的原因。同时,我们也希望将不同作家作品中的语言使用进行对比研究。另外,笔者认为从词束和通用词汇角度分析狄更斯小说的词汇特色,客观地论证了狄更斯小说在我国英语学习者中的推广性。我国英语学习者,包括高中生和大学生,已经具备了一般性阅读的词汇量,在英语学习上,急需高质量的语言输入。阅读经典原著不仅可以提升英语水平,更重要的是一种与经典著作的对话,在深入语言使用的语境中感受英语语言的力与美,同时达到提高文学修养的目的。
参考文献:
[1] Biber, D. & Conrad, S. “Lexical bundles in conversation and academic prose” in H. Hasselgrad & S. Oksefjell (eds): Out of Corpora: Studies in honor of Stig Johansson(pp. 181- 189)[M]. Rodopi,1999.
[2] Biber, D & Gray, B. Challenging stereotypes about academic writing: Complexity, elaboration, explicitness[J]. Journal of English for Academic Purpose, 2010 (9):2-20.
[3] Brezina, V. & Gablasova, D. Is there a core general vocabulary Introducing the New General Service List [J]. Applied linguistics, 2015 (1):1-22.
[4] Erman, B. & Warren, B. The idiom principle and the open choice principle [J]. Text, 2000 (1): 29-62.
[5] West, M. A General Service List of English Words: With Semantic Frequencies and a Supplementary Word-List for the Writing of Popular Science and Technology [M].Longman,1953.