基于依存树库的语言计量特征对比分析

来源 :安徽理工大学学报·社会科学版 | 被引量 : 0次 | 上传用户:king_63427501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:基于语料库研究方法,以依存语法为理论框架,分别从依存距离分布和主语、宾语、定语以及状语的词类构成上,对美国首任总统乔治·华盛顿和现任总统唐纳德·特朗普的就职演说进行了量化对比分析,发现唐纳德·特朗普演讲词比乔治·华盛顿演讲词的依存距离更小,文本更容易理解;乔治·华盛顿演讲词中Wh-词出现在主语中的频率远远高于唐纳德·特朗普顿演讲词;乔治·华盛顿倾向于使用形容词作定语,而唐纳德·特朗普倾向于使用形容词性物主代词作定语;此外,副词在乔治·华盛顿和唐纳德·特朗普演讲词中充当状语的功能上并不完全占优势。因此,对语言进行计量特征对比分析有助于对文本内容的理解以及对文本复杂度的判断。
  关键词:语料库;依存语法;依存距离;词类构成;计量特征
  中图分类号:H313文献标识码:A文章编号:1672-1101(2019)02-0058-05
  Abstract: Based on corpus and the Dependency Grammar, this study makes a contrastive analysis on the distribution of dependency distance and the correspondence between dependency relation and word class (subject, object, attribute and adverbial) of the inauguration speech by George Washington and Donald Trump. It suggests that dependency distance of George Washington’s speech is much greater than Donald Trump’s, which indicates that George Washington’s speech is more difficult to understand than Donald Trump’s. Besides, the frequency of Wh-words as subject in George Washington’s speech is far higher than Donald Trump’s. What’s more, George Washington tends to use adjectives as attribute, while Donald Trump tends to use possessive pronoun as attribute. This paper also finds adverbs as adverbials in George Washington’s and Donald Trump’s speeches are not entirely overwhelming. Therefore, this paper points out comparative analysis of the quantitative features of language contributes to the understanding of the content and the judgment of the text complexity.
  Key words:Corpus; Dependency Grammar; Dependency distance; Word-formation; Text complexity
  美國自建国以来,总统就职演说成为历史沿袭的重要标志之一。历届总统的就职演说,可谓是“绮丽以艳说,藻饰以辩雕”,具有较高的文学和艺术审美价值[1]。历届总统借助就职演说这把利剑分析事实、评价历史,并用精湛的言辞技巧向民众传达未来的施政纲领,以获得更多的民众支持。目前,我国学者对美国总统就职演说的研究在数量、层次和深度等方面较为有限。在CNKI中国学术期刊网络出版总库中以“美国总统就职演说”为关键词进行检索,发现较多的研究是对个别总统演说词的修辞隐喻、主题词、文体风格[2-6]等方面的研究与分析,从依存句法角度对美国总统就职演说的语言特征进行量化对比分析的尚有不足。
   因此,本文基于语料库研究方法,以依存语法为理论框架,从依存距离分布和主、宾、定、状语的词类构成角度,对美国首任总统乔治·华盛顿和现任总统唐纳德·特朗普的就职演说进行量化对比分析,旨在探索依存距离的长短能否反映文本复杂度,哪些词类可以充当主语、宾语、定语和状语,哪些词类在充当主语、宾语、定语和状语时有助于对文本内容的理解。
  一、语料与方法
   语料库是自然语言处理必不可少的工具,树库是经过句法标注的语料库。基于依存树库研究方法可以在大规模真实语料的基础上,通过实证研究方法帮助我们更好地研究语言的结构特征,发现人类语言的普遍规律。因此,本文运用定量与定性相结合的研究方法,基于依存树库对美国首任总统乔治·华盛顿和现任总统唐纳德·特朗普就职演说的语言特征进行了量化的对比分析。
     本文所选语料为:1.1789年4月30日美国首任总统乔治·华盛顿就职演说的英语版本(http://www.presidency.ucsb.edu/inaugurals_words.php.);2.2017年1月21日美国新任总统唐纳·特朗普就职演说的英语版本(http://www.presidency.ucsb.edu/inaugurals_words.php.),分别以纯文本形式建立语料库1和语料库2,其语料信息如表1所示:
  二、数据与讨论
   工作记忆是限制人脑理解和语言处理的关键因素,Yngve用深度假说来阐释句法复杂性即句子理解难度与人类认知机制之间的关系[7]。依存关系中依存距离是衡量语言复杂性的一个指标。依存距离是指一个依存关系中的两个词之间的序号之差,在一定程度上可以反映出句子的理解难度。人类在分析和理解句子时,句中的词被不断地储存进工作记忆中,只有当一个词的支配词出现时,这个词才能被从工作记忆中删除[8]。这就表明,依存距离越小,人类在处理信息时认知负荷越小,句法复杂性越低;而依存距离越大,人们在处理信息时的认知成本或认知消耗越大,当认知负荷超过人类短期工作记忆容量(7±2)时,就会造成句子理解困难。因此,本文通过计算语料库1与语料库2中每种关系的依存距离并画出时序图,以便我们更清楚的了解树库中整体依存距离分布状况:   语料库1和2的依存距离时序图呈现了整个树库的依存距离分布,可以清楚地看到语料库1波动幅度较大,一部分数值在0轴上下波动, 一部分数值在50-100之间波动,分布相对分散,依存距离正值最大值为147,负值最大值为-105;而语料库2波动幅度相对较小,绝大部分数值围绕0轴上下波动,大致在0-20之间密集分布,只有少部分数值起伏较大,依存距离正值最大值为70,负值最大值为-57。由此,可以得出语料库1的文本难度要高于语料库2。这是因为依存距离在0轴上下分布越密集,支配词与从属词之间的线性距离越小,它们更倾向于相邻地在句子中依次出现,此时,句子更容易加工;而波动幅度越大,分布越分散,就表明支配词与从属词在句子中的线性距离越大,即从属词与支配词之间有更多的词存在。随着句长增大,依存关系之间的组配关系变得逐渐复杂,进而造成句子理解难度增大。这与Gibson的依存定位理论(Dependency Locality Theory, DLT)相契合,即:从属词和支配词线性距离越大,整合难度就越高,对工作记忆容量的消耗越大[9]。在此基础上本文也计算了语料库1与语料库2的平均依存距离,分别为4.25和3.24,表明乔治·华盛顿的就职演说词比唐纳德·特朗普就职演说词的平均依存距离更大,理解难度更高。
   除了对语料库1和语料库2的依存距离和平均依存距离统计之外,本文也对其绝对依存距离分布模式进行统计,发现语料库1的绝对依存距离值为1的数量为755个,占整个树库的54.08%,略占优势,当绝对依存距离值≦12时,数量为1 330个,达到整个树库的95.27%,占绝对优势;语料库2的绝对依存距离值为1的数量为757个,占整个树库的55.87%,略占优势,当绝对依存距离值≦8时,数量为1 297,达到整个树库的95.72%,占绝对优势。因此,通过计算语料库1和语料库2的绝对依存距离分布模式,本文得出唐纳德·特朗普就职演说词比乔治·华盛顿的就职演说词具有更小的依存距离,理解难度更容易。近年来的一些研究揭示了人类句法机制偏爱依存距离倾向于最小化的线性语序[10]。齐普夫于1949年在《人类行为与省力原则—人类生态学引论》中提出“省力原则”,这一原则是人类进行言语行为和一切社会活动的根本准则。人们在进行言语表达时越来越倾向于使用较小的依存距离,这种依存距离最小化的倾向是基于“省力原则”的。依存距离最小化是人类语言的普遍规律,已在几十种语言中被证实[11]。可见,乔治·华盛顿和唐纳德·特朗普的就职演说词都遵循了依存距离最小化的规律。但是,当绝对依存距离超过30时,语料库1比语料库2所占的百分比大大增加,语料库1所占比例为1.43%,而语料库2仅占0.15%,说明语料库1中的平均依存距离要远远大于语料库2,提升了句子结构的复杂性和加工难度。
   句子的平均依存距离和句长有关[12],句子的平均依存距离能够预测句法难度[8,13]。通过整个树库依存距离的分布,可以得出句子越短,依存距离越小,句子信息更容易处理;反之,句子越长,依存距离越大,尤其当依存距离超过100时,会造成严重的理解困难。乔治·华盛顿的演讲词中句式复杂,大量运用排比和复杂句式,使得依存距离长,理解难度大;唐纳德·特朗普的演讲词中句式灵活多变,依存距离短,理解难度小,表明唐纳德·特朗普的就职演说词的难度比华盛顿的难度低,更倾向于使用简化的语言。总统就职演说的听众涉及社会各个阶层,语言过于复杂或口语化,都会影响其演讲效果。因此,本文认为在政治演讲语篇中,适当减小依存距离符合省力原则和依存距离最小化规律,易引起听众的共鸣,能达到让听众刻骨铭心的效果。
   除此之外,本文还对主语、宾语、定语和状语的词类构成进行统计与分析,如下表所示:
   从表2可知,语料库1与语料库2中构成主语的词类大体一致,但其词类的分布频率却相差较大。语料库1中构成主语的名词和代词出现的次数相同,为30次,占比均为34.48%。并且构成主语的词类,除了名词和代词所占比重较大之外,Wh-词的地位也不容小觑,占22.99%的比重。而在语料库2中,代词出现70次,名词出现52次。Wh-词仅出现了3次,所占百分比分别为37.41%、50.36%和2.16%。在两个语料库中,Wh-词出现的频率相差较大,这是因为Wh-词(which, that, what, who)越多,代表长难句越多,句式结构越复杂。因此,Wh-词所占的比例在一定程度上可以反映出文本的难易程度。
   表3显示,语料库1与语料库2中,宾语的主要词类构成是名词,其次是代词。但是通过表2可以发现语料库1中Wh-词(which, that)有较强的充当宾语的能力,比重为25%;而语料库2中,Wh-词仅出现了一次,占比1.02%,可忽略不计。从Wh-词构成宾语所占比重,同样可以得出语料库1长难句多,人们在处理信息时的认知负荷大;语料库2句式相对简单,易于理解。
   表4表明,语料库1和语料库2中,作定语的词类构成,包括形容词、代词和介词短语(of结构),三种词类的比重都较大。但语料库1中,形容词作定语比语料库2高出近10个百分点,语料库2中形容词性物主代词的使用比语料库1高出近16个百分点,而介词短语在语料库1中比语料库2高出5个百分点,可见,乔治·华盛顿演讲词的限定语十分丰富,用词严谨,理解难度相对较大;而唐纳德·特朗普的演说词,用词相对简单,通俗易懂。邓耀臣与冯志伟]曾指出人类的惰性和大脑信息处理能力的有限性使说话者在言语交际过程中倾向于选用短小、简单的词汇表达特定意义以节省力量消耗,这种行为直接导致这些短小词汇在语篇中的使用频数增高[14]。
   从表5状语的词类构成来看,语料库1与语料库2介词短语作状语和副词作状语都有着举足轻重的地位。语料库1中,介词短语作状语的比重为56.05%,略占优势;副词作状语所占比重为27.39%,动词仅占3.18%。而语料库2中,副词作状语占51.37%,介词短语作状语的比重为40.41%,动词占2.05%。从状语的统计数据可以看出副词在充当状语这一功能上并不完全占有优势,这一点在乔治·华盛顿和唐纳德·特朗普的总统就职演说词中存在较大的差异。在语料库2总统就职演说中,副词和介词短语作状语成分几乎可以平分天下,而在语料库1中,介词短语作状语比副词作状语出现的次数更为频繁。副词常限制修饰动词、形容词性词语,表示程度、范围、时间等意义;汉语介词与英语介词都是一种表达关系意义的虚词,它们的作用都在于引出与动词或形容词、名词、代词等相关的对象(施事、受事、与事、工具)以及处所、时间等[15]。副词和介词短语都起到修饰限定和解释说明的作用,但是副词的概念相对模糊、笼统而介词短语能较清楚的引出较具体的内容。从这一点上,可以推断出乔治·华盛顿的就职演说词更为清晰明了,对演讲的具体内容交待地較为具体详实。    因此,通过对构成主语、宾语、定语和状语的词类统计与分析,就主语和宾语词类构成统计而言,可以推断出乔治·华盛顿的就职演说词难度高于唐纳德·特朗普的就职演说词;在定语的词类构成上,乔治·华盛顿的就职演说用词严谨,唐纳德·特朗普的就职演说用词相对简单、容易;在状语的词类构成上,乔治·华盛顿的就职演说词更为清晰明了,对演讲的具体内容交待地较为具体详实。
  三、结语
   本文基于依存树库对美国首任总统乔治·华盛顿和现任总统唐纳德·特朗普的就职演说从依存距离分布和主语、宾语、定语和状语的词类构成上进行计量对比分析。得出以下结论:1.句子越短,依存距离越小,文本信息更容易处理;反之,句子越长,依存距离越大,文本信息处理难度越大。乔治.华盛顿的演讲词句子复杂,使得平均依存距离长,理解难度较大;唐纳德.特朗普演讲词中句式灵活多变,平均依存距离短,理解难度较小。2.在构成主语和宾语的词类中,Wh-词在一定程度上可以反映出语篇的难易程度,Wh-词出现的频率越低,语篇句式越简单,信息越易加工;Wh-词出现的频率越高,语篇句式越复杂,信息越难加工。形容词、代词、介词短语在作定语时所占比重都较大,但乔治.华盛顿的演讲词中形容词作定语使用频率高,而唐纳德.特朗普的演讲词中形容词性物主代词使用频率较高。从状语的统计数据,可以看出副词在充当状语这一功能上并不完全占有优势。通过计量特征的对比分析,本文得出语言的计量特征对比分析有助于对文本内容的理解以及对文本复杂度的判断。
  参考文献:
  [1] 刘娲路. 基于语料库的美国总统就职演说之人际意义研究[J]. 保定学院学报,2013(3):93-97.
  [2] 曹玉梅.美国总统就职演说辞的隐喻性研究[D]. 曲阜:曲阜师范大学硕士学位论文,2006.
  [3] 曾庆敏.基于语料库的美国总统就职演讲主题词研究[J].重庆教育学院报,2013,26(1):61-64.
  [4] 罗建平.美国总统就职演讲主题词的语料库分析[J].浙江外国语学院学报,2011(5):46-50.
  [5] 黄青.特朗普就职演讲的文体分析[J].外语教育与翻译发展创新研究,2017(6): 381-384.
  [6] 徐倩.从相似性原则看政治演讲的文体效果——以特朗普在华盛顿演讲为例[J].海外英语,2017(9):187-188.
  [7] Yngve V H.A model and an hypothesis for language structure[J]. Proceedings of the American philosophical society, 1960, 17(5): 444-466.
  [8] Liu H.Dependency distance as a metric of language comprehension difficulty[J].Journal of Cognitive Science, 2008, 9 ( 2) : 159-191.
  [9] Gibson  E.Linguistic complexity: locality of syntactic dependencies[J].Cognition,1998,68(1): 1-76.
  [10] Ferrer-i-Cancho R. Hubiness, length and crossings and their relationships in dependency trees[J]. Glottometrics,2013(25), 1-21.
  [11] Liu H T.Dependency distance as a metric of language comprehension difficulty[J]. Journal of Cognitive Sci-ence,2008,9(2):159-191.
  [12] Futrell R,Mahowald K, Gibson E. Large-scale evidence for dependency length minimization in 37 languages[J].Proc Natl Acad Sci USA, 2015,112(33): 10 336-10 341.
  [13] Zipf G.Human behavior and the principle of least effort: An introduction to human ecology[M].New York: Hafner,1949.
  [14] 邓耀臣,冯志伟. 词汇长度与词频数关系的计量语言学研究[J].外国语,2013,36(3):29-39.
  [15] 夏瑞华,谢锁良. 汉英介词对译中的不对应现象举隅[J].镇江师专学报(社会科学版),1993(3):42-43.
  [责任编辑:吳晓红]
其他文献
摘 要:构建2006-2015年省际面板数据,采用随机前沿分析方法对我国30个省市区的大中型工业企业技术创新效率进行测度,把R&D内部支出、政府支持力度、产学研协同创新纳入技术创新无效方程,分析大中型工业企业技术创新效率及存在差异的关键因素。研究结果表明:我国大中型工业企业技术创新总平均效率为0545;东中西部三大区域的技术创新平均效率有较大差异;R&D内部经费支出对技术创新效率存在正向作用,政府
期刊
摘 要:利用2008—2018年在“一带一路”沿线国家的面板数据,构建双固定效用模型,进行单位根检验、回归分析等计量分析。实证分析表明:“一带一路”沿线国家基础设施水平与中国海外承包工程量之间的关系处于长期平稳的状态,且基础设施水平的高低直接影响中国海外承包工程量。但是沿线国家间基础设施水平之间呈现发展不均衡的问题,其中东南亚区域的基础设施水平建设更有利于中国海外工程承包的投资,中东欧、西亚等区域
期刊
摘要:目前理工类高校学报人文社科版的整体水平不高,以安徽省理工类高校学报人文社科版为例,研究发现目前其发展普遍面临刊物定位不明确、办刊力量不足、优质稿源缺乏、办刊开放性不够等问题。促进理工类高校人文社科版的发展,首先管理层要加强对学报的重视;其次要利用学科优势,开设特色栏目,在出版业数字化转型的背景下抓住机遇,加强数字化出版和多平台多渠道的传播;最后要增强办刊力量,充分发挥编辑队伍与编委会的作用,
期刊
摘 要:将纳博科夫《黑暗中的笑声》放置在消费文化语境下,在伊利格瑞女性主义理论关照下,聚焦玛格的身体,提出女性身体的双重消费——被“物化”“符号化”。但女性的自我主体性使她们能利用自己的身体以及魅力冲出桎梏,用自己的女性特质消解男性权威,赢得话语权,实现女性在男权范式下的反抗与崛起。  关键词:《黑暗中的笑声》;《非“一”之性》;伊利格瑞;女性身体;消费文化  中图分类号:I106 文献标识码:A
期刊
摘 要:在迈向优质旅游的进程中,红色旅游供需錯配现象日渐凸显。将IPA模型的“重要度-满意度”分析和5GAP模型的差距分析相融合,对安徽省红色旅游目的地供需分析发现:在总体市场中,游客对红色旅游目的地资源禀赋的期望值与满意度均相对较高,目的地6个评价维度及其指标值均呈现出游客期望值高于满意度的供需错配态势;在高学历市场中,游客感知的旅游目的地供需错配现象更为明显,除交通环境外,游客对目的地供给维度
期刊
摘 要:从顺应论角度,通过对所收集的10篇新闻实例进行分析,探讨“皖南国际文化旅游示范区”新闻中使用的模糊语如何顺应交际双方的心理世界、物理世界以及社交世界。结论表明:(1)这些模糊语更多地是对心理世界的顺应。(2)顺应物理世界的模糊语,不仅适用于传递不那么精确的时间,也可以传递情绪。(3)使用顺应社交世界的模糊语,不仅符合中国传统文化道德要求,也与新闻报道的要求相吻合。通过应用模糊语,有助于建构
期刊
摘 要:古今学者对刘安谋反案多有质疑。结合刘安时代的社会政治现实和司马迁的治史思想来分析,《史记·淮南衡山列传》重在反映“推恩令”对诸侯国的影响和汉代酷吏“深穷治狱”的办案手法,以此达到“通古今之变”的目的。刘安谋反案中所谓的“疑点”都有合理的解释,整体上说不是一件冤案。但刘安也确实有一些冤枉的地方,这一点主要体现在汉代酷吏“深穷治狱”的办案过程上。  关键词:刘安;马庆洲;疑点;辨析;史记  中
期刊
摘 要:资源型城市在其产业结构调整中需要高度重视工矿遗产的活化,充分挖掘其利用价值,使其成为城市转型与经济发展的内在推动力。而淮南市九龙岗镇正处于规划阶段的“民国小镇”项目设计上以“风情”“不夜”为卖点,以此吸引游客,实际上是忽视了该地区丰富的工矿遗产优势,没有考虑到该地区在淮南城市建设史上所独有的历史地位和人文价值。为此,建议其景观规划从文化记忆街区、艺术创意街区和休闲娱乐街区三个方面展开,以艺
期刊
摘 要:寿县作为国家历史文化名城,拥有丰富的历史文化资源,毗邻长三角经济带的独特地理位置使其区位优势更加明显。通过文献研究和问卷调查等方法,了解上海市居民对寿县文化旅游资源的熟知度,并揭示寿县在上海旅游市场的现状和存在的问题,从而围绕历史文化资源挖掘、宣传途径、基础设施建设方面提出寿县古城在上海旅游市场发展的相关策略,提高寿县古城在上海的知名度,以推动寿县文化旅游资源的开发。  关键词:寿县文化旅
期刊
摘 要:从教育层面、学校层面、教师层面阐述高校青年教师综合能力评价体系构建的必要性,以安徽省A大学为例,分析该学校在青年教师综合能力培养机制和评价现状并在此基础上着重提出高校青年教师综合能力评价程序的几点建议。  关键词:青年教师;综合能力;现状;评价程序  中图分类号:G40文献标识码:A文章编号:1672-1101(2019)02-0099-05  收稿日期:2018-09-25  Abstr
期刊