论文部分内容阅读
摘要:本文涉及语料库分析方法在小说中的应用。《暮色》是《暮光之城》系列小说中的第一部,小说一经出版就销量大增,其改编的电影上映后,更是在全球掀起了新一轮魔幻热潮。本文首先利用语料库软件Wordsmith分析小说的总体特征,然后通过检索并分析它的关键词得出其内容上的特点,最后将《暮色》与其他三部相比较得出这一系列小说的共同点。结论力图从较客观的角度来欣赏这部小说,期望能对其畅销的原因窥探一二。
关键词:诗语料库分析;暮色,;关键词;特点
中图分类号:J9文献标识码:A文章编号:1009-0118(2010)-05-0075-03
一、概论
语料库数据的一个优点在于它实证的本质,它综合了很多说话者的直觉,使语言分析更客观。利奇将语料库定义为"语言和其他文本形式的代表性的集合[1]。""辛克莱(1996)回应了利奇关于语料库的定义,也强调了其代表性:语料库就是很多语言片段的集合,这些片段由详细的语言规范选择出来并被排序,然后被用作语言的样本"。 麦克恩雷和肖忠华也对其做了详细定义:…越来越多的学者一致认为语料库是一种机读的、可靠的文本(包括口头资料的记载)的集合,这种集合被认为是某种语言或者语言变体的样本[1]。休斯顿也曾说,"语料库本身什么都不是,只是一个语言的仓库…一个语料库不能包含语言中出现的新信息,但是其软件可以提供研究熟悉文本的新视角[2]。"在现代语言学中,语料库已经被用于许多方面的研究,如词汇、语法、语域差别、文体分析、语义学、语用学等的学习和研究。本文涉及到语料库在小说分析中的应用。麦克恩雷在书中提到,"文体学家通常对各个作家的各个作品感兴趣,而不是其语言和语言变化。"语料库及语料分析技术已被应用于散文文体,作家的写作风格及其作品的归属等研究。乔纳森·考佩普曾用语料库分析《罗密欧与朱丽叶》里面的六个人物。他想要得出"语言是怎样塑造各种人物的性格的",他发现"语法特征创造出的模式被潜在遵守着",随后他在文章中进一步解释道: "这篇文章的一个重要目的就是要显示'文体学的重要性',也就是如何从实证的方式去分析人物性格,尤其是提供一种鉴定文本'关键词'的方法[3]。"
许多其他学者在这个领域做了相关研究,如用语料库分析名著《呼啸山庄》[4]、欧·亨利著名短篇小说"警察与赞美诗"[5]、奥斯卡王尔德的"真诚最重要"[6]等。麦克恩雷曾这样表述文体特征和语料库间的关系:"在研究作者的文体特征的时候用到的方法经常不只是简单的计算,而是基于如MF、MD等复杂精细的数据统计方法,基本成分分析和多元分析[1]。"
二、关键词比较
本文试图分析《暮色》的总体特征,并在比较几部小说关键词的基础上初步分析文章特点。关键词是指一个语料库比其他语料库出现频率高的多的词语。休斯顿定义关键词"可以是反映文章主题的语义词汇,也可以是传达更细微信息的语法词汇。"这里用到的语料库研究软件Wordsmith Tools 可以自动比较两个语料库——通常情况下是比较一个较小的专门性的语料库和一个较大的一般性的语料库——然后列出这个专门性的语料库的关键词[2]。本文将《暮色》作为专门性的语料库, BNC(英国国家语料库)作为参照性的语料库。BNC是一个著名的一般性语料库,其中包含有100,106,008个词,4,124篇书面语料和当代英语演讲稿。肯尼迪介绍它不仅是某一特定体裁、主题或者语域的代表,还是整个英式英语的代表…BNC在收录口头或者书面语料的时候都有一定的原则而且数量也有限...它被设计的十分平衡,各方面体裁的书面和口头语料都有收录,而且广泛用于教育,学术和商务用途[7]。本文分析的具体步骤是:先在Wordsmith软件里生成《暮色》的词汇表,然后将其与BNC进行比较,在另一个表格里生成关键词,最后分析这些关键词得到小说的主要情节方面的信息。按照相同的方法得到另外三部小说的关键词,再通过对四部小说的关键词进行对比分析,得出这部系列小说的总体特征。
表1是将《暮色》全文输入Wordsmith Tool中得出的数据。需要说明的是,本次数据分析并没有把单词进行词目化(lemmatized),"词目化是把一个单词所有相同或者有关的形式都划分到一个共同的标题词下面,就像编字典时把许多不同的词形变化或这个词的派生词都放在这个词条下面一样。"也就是说,在这个词表里面,"Look"和"Looked"被当成两个不同的词。从文本大小和形符(Tokens)看来这是一部篇幅相对较长的小说。类符形符比(Type/Token Ratio ,简称TTR)是6.84,与标准TTR(43.55)比较可得知这部小说与其他小说比较而言,其词语形式变化不多。TTR反映了某一文本中一个词的变化,是由类符(type)除以形符(token)再乘以100得到的。类符是语料库中不同的词语;形符是所有的词形。TTR值越大说明该文本所使用的不同词汇量越大,反之则不同词汇越少。但由于一种语言在特定时期的词汇量是有限的,语料库容量不断扩大,形符数持续增加,但类符数却不一定会增加;语料库容量越大,形符类符比反而会越来越小,因此不同容量的语料库的形符类符比不具备可比性。故一般用标准类符形符比(STTR)来衡量语料库的词汇变化,即按一定的长度分批计算文本的类符形符比,再求均值类符形符比反映文本的信息量的大小[8]。小说平均字长为4.17,少于5个单词的词组有7,7186个,占了全文的78.3%。所有数据均显示了这部小说中的语言特点:通俗易懂。这或许也是它一出版就畅销的原因之一。现代社会人们工作生活节奏都较快,很多人都选择工作之余读这样的小说以打发时间。难怪美国《学校图书馆学刊》的希拉斯J· 马丁评论这本书"集现实、诡秘、简洁、通俗易懂于一体,让人读后欲罢不能。"
但仅凭这些数据得不出一些更具体的信息,例如人物性格、情节还有小说的主题等。需要下面文本关键字列表分析对其进行补充。关键词是将要分析的文本词表和参考语料库的词表对比得出的。因为一般性语料库具有一般性和代表性,通常会把它的词表作为参照语料库词表。在这个研究中,我们用BNC做参照词表。表2显示了《暮色》的部分关键词:
这个表包含了小说前100个关键词,其中22个为人名,而且都排在前40个关键词中,这些都是小说的主要人物。除此以外,排在第一位的为代词"I",这说明小说是以第一人称叙述角度来写的。另一个有趣的发现是前100个关键词很多都与面部表情有关,如EYES(眼睛)、VOICE(声音)、FACE(脸)、STARED(注视)、SMILED(微笑)、LIPS(嘴唇)等等。如果将这个词表中所有的代词和功能词都去掉,那剩下的46个词中23个都与面部表情有关。这类词在一般小说中占如此大的比重是不常见的,但不难从其内容上解释这一现象:小说讲的是一个女孩和吸血鬼的爱情故事,但是这份爱对女孩来说很危险,因为吸血鬼们都渴望吸人血。因此,这种微妙的紧张和两人特殊的感情需要用他们的面部表情淋漓尽致地表现出来,而诸如"STARED(注视)","MUTTERED(轻语)","WHISPERED(耳语)"这类词就很适合传达人物心理活动和当时的环境。
分析了《暮色》的关键词后,笔者再将其与后三部的关键词分别做了比较:列出这四部小说中的前100个关键词,同时标出每个词所在的位置。然后将里面的所有代词和功能词都去掉,将四部剩余的关键词生成在一个表格中(见附录)。之所以去除某些词是因为本次分析只是想得到这一系列小说内容上的总体特点。从表中可以看出四部小说在剩余关键词数量上呈现一个下降的趋势。可以解释这一现象的原因是,这四部小说的情节都是连续的,当情节发展时,出现的人物越来越多,人名也就增多了,剩余的关键词变少了。其次,从附录中可以得出四部小说共同的一些关键词,如"EYES"、"FACE"、"VOICE"等,并且这三个单词都位于列表的前五位。这些相似点无疑是因为它们是由同一位作家创作的一个系列的小说,另外三部小说延续了第一部的写作风格,倾向于用面部表情的词语来表达人物的内心活动。另外,关键词"VAMPIRE"的出现位置也需要引起注意,它虽然是这部小说中一个重要的关键词,但它在四部小说中的重要性不尽相同。从表格中可以看出,它由第一部的排名76上升到最后一部的排名20。笔者分析,这是由于情节的发展,其主题"VAMPIRE"的重要性才慢慢凸显。
三、小结与讨论
如今,将语料库技术应用于文学作品研究中的尝试已屡见不鲜。许多学者在此领域做了相关有价值的研究。这个有关《暮光之城》系列小说的试探性研究是基于语料库的一些基本理论和对Wordsmith工具的应用开展的。通过对《暮色》以及其他三部小说关键词的分析和对比,我们得出了一些有关这部小说的基本信息。虽然其篇幅较长,但由于这是面对年轻读者的通俗小说,其语言应该是浅显易懂的。这个假设在后来的分析中得到了证实。在关键词的分析中,我们发现许多有关面部表情的词语,这或许可以归因于小说的内容——吸血鬼题材的浪漫爱情小说。小说的另一个特点是后三部小说延续了第一部的风格,文中通过后来对其关键词的对比证实了这一点:⑴去除各种代词和功能词的关键词数量呈递减趋势;⑵四部小说包含许多共同的关键词或者许多关键词的排序也相同;⑶"VAMPIRE"这个关键词的位置在逐渐变化,具体地说,其关键性在不断增强。
这个试探性研究也存在不少问题和局限。首先,简单的从其词语表和关键词分析中得不出其文体特征,需要进一步的如对其搭配和协调性的研究或者对其中的句子做具体的语法分析来对其改进。其次,基于语料库的分析十分客观,很难反映这部小说的具体情节或内容,但我们知道,情节对于小说来讲是其灵魂和精华。期待读者能自己亲自欣赏这部小说以便领略到它真正的精华所在。
参考文献:
[1]McEnery, A., Xiao, Z. and Tono, Y.Corpus-Based Language Studies: An advanced resource book. London: Routledge,2006.
[2]Huston, Susan.Corpora in Applied Linguistics. Cambridge: Cambridge University Press,2002.
[3]Culpeper, Jonathan.'Computers, language and characterization: An analysis of six characters in Romeo and Juliet'. U. Melander-Marttala, C. Ostman and Merja Kyto (eds.), Conversation in Life and Literature: Papers from the ASLA Symposium, Association Suedoise de LinguistiqueAppliquee(ASLA),15. Universitetstryckeriet: Uppsala,2002.
[4]任培红.基于语料库的呼啸山庄检索分析[J].沈阳大学学报,2008.
[5]杨健玫.警察与赞美诗的语料库检索分析[J].四川外语学院学报,2002.
[6]吴琪,李文中.名与实的悖论-《真诚最重要》的语料库检索分析[J].外语电化教学,2007,(3).
[7]Kennedy, Graeme.An Introduction to Corpus Linguistics. Beijing: Foreign Language Teaching and Research Press,2002.
[8]王克非,胡显耀.基于语料库的翻译汉语词汇特征研究[J].中国翻译,2008,(6).
[9]肖普勤,黄凤枝.基于语料库的文学作品分析方法初探[J].美中外语,2005,(8).附录
关键词:诗语料库分析;暮色,;关键词;特点
中图分类号:J9文献标识码:A文章编号:1009-0118(2010)-05-0075-03
一、概论
语料库数据的一个优点在于它实证的本质,它综合了很多说话者的直觉,使语言分析更客观。利奇将语料库定义为"语言和其他文本形式的代表性的集合[1]。""辛克莱(1996)回应了利奇关于语料库的定义,也强调了其代表性:语料库就是很多语言片段的集合,这些片段由详细的语言规范选择出来并被排序,然后被用作语言的样本"。 麦克恩雷和肖忠华也对其做了详细定义:…越来越多的学者一致认为语料库是一种机读的、可靠的文本(包括口头资料的记载)的集合,这种集合被认为是某种语言或者语言变体的样本[1]。休斯顿也曾说,"语料库本身什么都不是,只是一个语言的仓库…一个语料库不能包含语言中出现的新信息,但是其软件可以提供研究熟悉文本的新视角[2]。"在现代语言学中,语料库已经被用于许多方面的研究,如词汇、语法、语域差别、文体分析、语义学、语用学等的学习和研究。本文涉及到语料库在小说分析中的应用。麦克恩雷在书中提到,"文体学家通常对各个作家的各个作品感兴趣,而不是其语言和语言变化。"语料库及语料分析技术已被应用于散文文体,作家的写作风格及其作品的归属等研究。乔纳森·考佩普曾用语料库分析《罗密欧与朱丽叶》里面的六个人物。他想要得出"语言是怎样塑造各种人物的性格的",他发现"语法特征创造出的模式被潜在遵守着",随后他在文章中进一步解释道: "这篇文章的一个重要目的就是要显示'文体学的重要性',也就是如何从实证的方式去分析人物性格,尤其是提供一种鉴定文本'关键词'的方法[3]。"
许多其他学者在这个领域做了相关研究,如用语料库分析名著《呼啸山庄》[4]、欧·亨利著名短篇小说"警察与赞美诗"[5]、奥斯卡王尔德的"真诚最重要"[6]等。麦克恩雷曾这样表述文体特征和语料库间的关系:"在研究作者的文体特征的时候用到的方法经常不只是简单的计算,而是基于如MF、MD等复杂精细的数据统计方法,基本成分分析和多元分析[1]。"
二、关键词比较
本文试图分析《暮色》的总体特征,并在比较几部小说关键词的基础上初步分析文章特点。关键词是指一个语料库比其他语料库出现频率高的多的词语。休斯顿定义关键词"可以是反映文章主题的语义词汇,也可以是传达更细微信息的语法词汇。"这里用到的语料库研究软件Wordsmith Tools 可以自动比较两个语料库——通常情况下是比较一个较小的专门性的语料库和一个较大的一般性的语料库——然后列出这个专门性的语料库的关键词[2]。本文将《暮色》作为专门性的语料库, BNC(英国国家语料库)作为参照性的语料库。BNC是一个著名的一般性语料库,其中包含有100,106,008个词,4,124篇书面语料和当代英语演讲稿。肯尼迪介绍它不仅是某一特定体裁、主题或者语域的代表,还是整个英式英语的代表…BNC在收录口头或者书面语料的时候都有一定的原则而且数量也有限...它被设计的十分平衡,各方面体裁的书面和口头语料都有收录,而且广泛用于教育,学术和商务用途[7]。本文分析的具体步骤是:先在Wordsmith软件里生成《暮色》的词汇表,然后将其与BNC进行比较,在另一个表格里生成关键词,最后分析这些关键词得到小说的主要情节方面的信息。按照相同的方法得到另外三部小说的关键词,再通过对四部小说的关键词进行对比分析,得出这部系列小说的总体特征。
表1是将《暮色》全文输入Wordsmith Tool中得出的数据。需要说明的是,本次数据分析并没有把单词进行词目化(lemmatized),"词目化是把一个单词所有相同或者有关的形式都划分到一个共同的标题词下面,就像编字典时把许多不同的词形变化或这个词的派生词都放在这个词条下面一样。"也就是说,在这个词表里面,"Look"和"Looked"被当成两个不同的词。从文本大小和形符(Tokens)看来这是一部篇幅相对较长的小说。类符形符比(Type/Token Ratio ,简称TTR)是6.84,与标准TTR(43.55)比较可得知这部小说与其他小说比较而言,其词语形式变化不多。TTR反映了某一文本中一个词的变化,是由类符(type)除以形符(token)再乘以100得到的。类符是语料库中不同的词语;形符是所有的词形。TTR值越大说明该文本所使用的不同词汇量越大,反之则不同词汇越少。但由于一种语言在特定时期的词汇量是有限的,语料库容量不断扩大,形符数持续增加,但类符数却不一定会增加;语料库容量越大,形符类符比反而会越来越小,因此不同容量的语料库的形符类符比不具备可比性。故一般用标准类符形符比(STTR)来衡量语料库的词汇变化,即按一定的长度分批计算文本的类符形符比,再求均值类符形符比反映文本的信息量的大小[8]。小说平均字长为4.17,少于5个单词的词组有7,7186个,占了全文的78.3%。所有数据均显示了这部小说中的语言特点:通俗易懂。这或许也是它一出版就畅销的原因之一。现代社会人们工作生活节奏都较快,很多人都选择工作之余读这样的小说以打发时间。难怪美国《学校图书馆学刊》的希拉斯J· 马丁评论这本书"集现实、诡秘、简洁、通俗易懂于一体,让人读后欲罢不能。"
但仅凭这些数据得不出一些更具体的信息,例如人物性格、情节还有小说的主题等。需要下面文本关键字列表分析对其进行补充。关键词是将要分析的文本词表和参考语料库的词表对比得出的。因为一般性语料库具有一般性和代表性,通常会把它的词表作为参照语料库词表。在这个研究中,我们用BNC做参照词表。表2显示了《暮色》的部分关键词:
这个表包含了小说前100个关键词,其中22个为人名,而且都排在前40个关键词中,这些都是小说的主要人物。除此以外,排在第一位的为代词"I",这说明小说是以第一人称叙述角度来写的。另一个有趣的发现是前100个关键词很多都与面部表情有关,如EYES(眼睛)、VOICE(声音)、FACE(脸)、STARED(注视)、SMILED(微笑)、LIPS(嘴唇)等等。如果将这个词表中所有的代词和功能词都去掉,那剩下的46个词中23个都与面部表情有关。这类词在一般小说中占如此大的比重是不常见的,但不难从其内容上解释这一现象:小说讲的是一个女孩和吸血鬼的爱情故事,但是这份爱对女孩来说很危险,因为吸血鬼们都渴望吸人血。因此,这种微妙的紧张和两人特殊的感情需要用他们的面部表情淋漓尽致地表现出来,而诸如"STARED(注视)","MUTTERED(轻语)","WHISPERED(耳语)"这类词就很适合传达人物心理活动和当时的环境。
分析了《暮色》的关键词后,笔者再将其与后三部的关键词分别做了比较:列出这四部小说中的前100个关键词,同时标出每个词所在的位置。然后将里面的所有代词和功能词都去掉,将四部剩余的关键词生成在一个表格中(见附录)。之所以去除某些词是因为本次分析只是想得到这一系列小说内容上的总体特点。从表中可以看出四部小说在剩余关键词数量上呈现一个下降的趋势。可以解释这一现象的原因是,这四部小说的情节都是连续的,当情节发展时,出现的人物越来越多,人名也就增多了,剩余的关键词变少了。其次,从附录中可以得出四部小说共同的一些关键词,如"EYES"、"FACE"、"VOICE"等,并且这三个单词都位于列表的前五位。这些相似点无疑是因为它们是由同一位作家创作的一个系列的小说,另外三部小说延续了第一部的写作风格,倾向于用面部表情的词语来表达人物的内心活动。另外,关键词"VAMPIRE"的出现位置也需要引起注意,它虽然是这部小说中一个重要的关键词,但它在四部小说中的重要性不尽相同。从表格中可以看出,它由第一部的排名76上升到最后一部的排名20。笔者分析,这是由于情节的发展,其主题"VAMPIRE"的重要性才慢慢凸显。
三、小结与讨论
如今,将语料库技术应用于文学作品研究中的尝试已屡见不鲜。许多学者在此领域做了相关有价值的研究。这个有关《暮光之城》系列小说的试探性研究是基于语料库的一些基本理论和对Wordsmith工具的应用开展的。通过对《暮色》以及其他三部小说关键词的分析和对比,我们得出了一些有关这部小说的基本信息。虽然其篇幅较长,但由于这是面对年轻读者的通俗小说,其语言应该是浅显易懂的。这个假设在后来的分析中得到了证实。在关键词的分析中,我们发现许多有关面部表情的词语,这或许可以归因于小说的内容——吸血鬼题材的浪漫爱情小说。小说的另一个特点是后三部小说延续了第一部的风格,文中通过后来对其关键词的对比证实了这一点:⑴去除各种代词和功能词的关键词数量呈递减趋势;⑵四部小说包含许多共同的关键词或者许多关键词的排序也相同;⑶"VAMPIRE"这个关键词的位置在逐渐变化,具体地说,其关键性在不断增强。
这个试探性研究也存在不少问题和局限。首先,简单的从其词语表和关键词分析中得不出其文体特征,需要进一步的如对其搭配和协调性的研究或者对其中的句子做具体的语法分析来对其改进。其次,基于语料库的分析十分客观,很难反映这部小说的具体情节或内容,但我们知道,情节对于小说来讲是其灵魂和精华。期待读者能自己亲自欣赏这部小说以便领略到它真正的精华所在。
参考文献:
[1]McEnery, A., Xiao, Z. and Tono, Y.Corpus-Based Language Studies: An advanced resource book. London: Routledge,2006.
[2]Huston, Susan.Corpora in Applied Linguistics. Cambridge: Cambridge University Press,2002.
[3]Culpeper, Jonathan.'Computers, language and characterization: An analysis of six characters in Romeo and Juliet'. U. Melander-Marttala, C. Ostman and Merja Kyto (eds.), Conversation in Life and Literature: Papers from the ASLA Symposium, Association Suedoise de LinguistiqueAppliquee(ASLA),15. Universitetstryckeriet: Uppsala,2002.
[4]任培红.基于语料库的呼啸山庄检索分析[J].沈阳大学学报,2008.
[5]杨健玫.警察与赞美诗的语料库检索分析[J].四川外语学院学报,2002.
[6]吴琪,李文中.名与实的悖论-《真诚最重要》的语料库检索分析[J].外语电化教学,2007,(3).
[7]Kennedy, Graeme.An Introduction to Corpus Linguistics. Beijing: Foreign Language Teaching and Research Press,2002.
[8]王克非,胡显耀.基于语料库的翻译汉语词汇特征研究[J].中国翻译,2008,(6).
[9]肖普勤,黄凤枝.基于语料库的文学作品分析方法初探[J].美中外语,2005,(8).附录