英语复句的计量特征研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:liliqqqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句子是人类语言中最高层级的语法单位,而复句是最复杂的句子类型。众所周知,复句是一种不可或缺的语言手段,用来表达或传递更加完整与复杂的信息。学术界对英语复句的定义莫衷一是,但夸克(Quirk)等人在1985年编著的《英语语法大全》为英语复句所下的定义已普遍被学术界所接受,即至少包含一个主句(main clause)且同时嵌入一个或一个以上担任句子成分的从句(subordinate clause)的句子类型。嵌入的从句分两类,一类是担任主句中的一个论元,如主语、宾语等,称为补语从句(complementation clause)或名词性从句(nominal clause);另一类则是修饰主句或其中某个句子成分的从句,即形容词从句或关系从句(relative clause)以及副词从句或状语从句(adverbial clause)。前人对英语复句的研究在儿童语言习得中萌芽,在中小学英语语言教学中发展,在英语复句句法复杂度的测量中延伸,在机器翻译中进一步提升。研究对象从观察有限语料的个例向分析大数据研究语料的总体逐渐过渡,而研究范式则是逐渐从内省思辨到实验论证转向。大数据时代,与人工智能密切相关的自然语言处理迅速发展,对英语复句的机器翻译质量的要求不断提高,文本简化实现的多种路径研究应运而生,从而使得机器对英语复句的处理效率与准确性进一步提升。虽然我们对英语复句的研究在不断推进,但距离复句的“真相”实则还相差甚远,比如,在书面语中,作为英语复句典型标记的从句密度究竟有何特征?复句中的从句嵌入深度是如何分布的?假若我们对此类核心问题短见薄识,蝉不知雪的话,很难说对英语复句已经有了清晰准确而又宏观全面的认知,更难说机器翻译中对英语复句的文本简化会有实质性的突破。综上所述,我们借助Brown与LOB语料库以及自建的选自《纽约时报》20万词的新闻语料库,利用复句频次、复句句长、从句密度、嵌入深度、依存距离、依存方向以及层级距离等计量指标,对英语复句宏观与微观两个维度的诸多计量特征进行了全面系统的探究。由于受到句子长度和嵌入从句类型等多种因素的影响,复句的频次并非毫无规律或完全随意。撇开语体与语言变体的差异,宏观上看,复句频次占比为39.41%。简言之,在日常产出的十个句子中,会有四个句子是复句。如果考虑语言变体的因素,美式英语中的复句频次占比为36.78%,而英式英语则为42.05%,两种变体稍有差异,但差异值并不显著。此外,从语体差异的视角看,复句频次占比在20.18%与51.90%之间浮动,语体差异带来的影响有显著性。其中,在宗教、文学、传记和散文的语体中,复句频次占比最高,而在小说语体中则最低。这个差异可能与文本的严肃性或正式性密切有关。此外,影响复句频次的另一个关键因素即为句子长度。受到人们认知能力的限制,文本中的复句句长不会是任意增加的。研究发现,英语复句的句子长度的分布符合扩展正负二项分布。而且,语体差异会对其分布产生显著性影响。尽管如此,不同的语言变体对复句句长的分布则没有带来显著性影响。众所周知,复句由诸多从句嵌入而成,从句数量直接影响复句频次与句长的分布,而与从句数量紧密相关的当属从句密度与嵌入深度两个计量指标。从从句密度的维度看,在不同语言变体中,最大阈值均为9,而嵌入深度的最大阈值均为4。有趣的是,从句密度和嵌入深度的分布不受语体差异的显著性影响。更为重要的一点是,从从句密度和嵌入深度两个指标的拟合优度来看,英语复句存在句法复杂性的最小化趋势。复句中嵌入的从句类型多样,结构复杂多变。不同的从句类型可能会给相应的复句带来不同的句法复杂性的增加值。我们的研究发现,从句法复杂性的增加值上看,名词性从句、关系从句与状语从句三者之间有显著性差异。其中,名词性从句最大,可能与其在主句中充当核心动词的论元结构有关,而关系从句与状语从句最小且两者之间的句法复杂性相当。虽然名词性从句的句法复杂性最高,但其又包含诸多子类,子类差异可能会对名词性从句整体的句法复杂性带来不同的影响。以依存距离为计量指标的研究发现,名词性从句的诸多子类之间在句法复杂性上没有显著性差异。在句法复杂性相当的关系从句与状语从句两者之间,我们知道,相对于后者而言,关系从句则是以结构复杂与种类多样而深受众多研究者的青睐。我们从依存距离与方向出发,系统挖掘了对关系从句句法复杂性带来差异的诸多因素。从句长看,从句嵌入位置对其分布有显著性影响,而关系从句的依存距离与其嵌入位置无关。在对名词性从句、关系从句与状语从句实际使用的过程中,我们发现,关系从句的引导词常常伴有省略且比例较高。在依存距离,层级距离与层级数等三个计量指标的辅助下,我们的研究显示,依存距离是引导词省略的主要制约因素,而层级距离对其影响则微乎其微,但会受到从句层级数的显著性影响。当且仅当层级数为“1”,即关系从句的层级数最低时,从句的引导词才更易于省略。本研究提出并初步实践了英语复句研究的新路径,为英语复句研究带来了一些潜在的定量研究新方法,从定量实证的视角填补了英语复句研究领域的某些空白,新方法的尝试有助于我们对英语复句的宏观概貌有更加全面和清晰的认识。
其他文献
目的:建立脂多糖(Lipopolysaccharide,LPS)诱导小鼠乳腺炎动物模型、细胞模型及乳腺炎本源动物细胞模型。分析阐明甘草酸的抗乳腺炎作用机制。方法:(1)甘草酸抑菌体外实验甘草酸对造成奶牛乳房炎的主要病原菌大肠杆菌、无乳链球菌和金黄色葡萄球菌进行最低抑菌试验和杀菌效果检验。(2)LPS诱发的小鼠乳腺炎性损伤模型的建立(1)通过肉眼观察LPS刺激组雌鼠的乳腺组织的病理学变化;(2)对获
学位
"现象教学"的理念最早起源于芬兰,其为我国高中阶段的思想政治教学提供了新的教学思路,为我国的思想政治教学改革提供新方向。现象教学提倡从事物的整体全貌出发,通过解决跨学科的问题促使学生的思想得到提升和锻炼,促使学生的综合能力得到提高。"现象教学"的跨学科的特点与新时代核心素养的培养相契合,为学生的全面健康发展提供有力支撑。本文将从现象教学的含义以及发展路径入手,分析高中思想政治教学中的重难点问题,探
会议
随着技术的发展,民用设备尺寸越来越小,越来越轻薄,电子设备内部的温度变高,逐渐地开始使用叠层型电容器替代薄膜电容。特别是便携式产品当中,为了追求薄型化,电源电路板高度越来越低,元器件也开始进行低厚度化和表面贴装化的设计。同时在中高压领域,作为开关电源节省能耗的对策之一,使用叠层电容器能够在待机时间降低电力消耗。但是,在电源初级中,待机状态的基本频率是在几百至几千赫兹(包括很多电子电路也存在此频率段
期刊
【目的】增加种植密度是近年来我国乃至世界玉米(Zea mays L.)大面积高产的最有效途径,而玉米密植后倒伏问题严重制约了单产的突破。高密度种植条件下会引起茎秆外部形态及内部解剖结构发生变化,茎秆结构性化合物如纤维素、木质素含量会发生相应的改变。密植如何影响玉米茎秆形态建成、物质积累与分布,进而影响茎秆抗倒伏强度形成的?值得做深入探讨。因此,探究种植密度对玉米茎秆解剖结构及结构性化合物合成及酶活
学位
可溶性糖、有机酸和花色苷对葡萄果实风味和颜色起到至关重要的作用。氮和钾是葡萄生长发育所必需的营养元素,可以调节可溶性糖、有机酸代谢和花色苷合成。但是关于氮与钾调控葡萄果实糖酸代谢和花色苷合成影响的研究还不够系统。本研究以的‘弗雷’和‘巨峰’葡萄为试验材料(成熟的‘弗雷’葡萄果实为鲜红色,‘巨峰’葡萄果实为紫黑色),通过研究根施3种水平氮肥、叶面喷施两种钾肥和氮钾互作对不同发育时期葡萄果实的可溶性糖
学位
目的:花青素是一种水溶性色素,其在植物体内的积累和分布不但为植物花朵或果实提供艳丽的色彩和丰富的图案以诱引传粉者和种子传播者,还可以保护植物免受生物和非生物胁迫。此外,花青素因其抗氧化和抗突变性而被广泛用于食品和医疗行业。迄今为止,关于花青素生物合成和调控在模式植物和园艺植物中被广泛研究,但棉花中此类研究的相关报道还比较少。本课题组前期引进了1份陆地棉红叶种质资源(命名为HY),初步研究发现该种质
学位
果粮间作是新疆南疆地区的主要农业生产模式,南疆三地州果麦间作面积超过3.33×10~5hm~2(新疆统计年鉴,2017)。随着树龄的增加,进入盛果期后,树冠截光引起的弱光胁迫成为间作冬小麦大幅减产、营养品质改变的主要原因,严重制约了果粮间作模式的健康、可持续发展。因此,明确间作模式下果树树冠截光对小麦籽粒产量和品质形成的影响及其生理机制对于优化果粮间作模式、指导间作模式下高产栽培调控途径的研究有较
学位
绵羊消化道线虫(Gastrointestinal nematodes,GIN)感染是由多种线虫寄生于胃肠道引起,能够导致生长发育受阻、增重减慢、饲养报酬降低和养殖成本增加,严重影响养羊业经济效益。此外,防治上广泛使用驱虫药会产生大量耐药性虫株,以及在动物产品中造成药物残留,加剧GIN感染的危害。因此,在充分掌握GIN流行特征和规律的基础上,通过选择对GIN具有遗传抗性的个体,培育抗GIN品种,有助
学位
近年来,我国英语学习者的学习需求逐渐朝着个性化方向发展,而传统的反馈形式仅在最终的成绩报告中提供总分、排名等信息,通常不具有个性化特征,学习者往往难以从中明确自身的优势与不足之处。考分相同的学生在知识结构方面可能存在差异,其能力也未必相同(何莲珍2000),因而他们更希望考后能获取有关自己已经掌握的技能及有待提高之处的诊断信息,这就涉及到认知诊断理论(涂冬波等2008)。认知诊断的评估方法可为学生
学位
作为语言学的热门领域,类型学关注语言共性与语言类型。目前,随着信息技术与计算机科学的发展,大规模数据库、量化研究方法与多维研究视角在语言类型学研究中均扮演着越来越重要的角色。作为现代语言类型学的研究重点,语序类型学虽不断发展、日臻成熟,但仍值得从更多层面做进一步探讨研究。首先,作为跨语系的语言普遍规律,Greenberg(1963)提出的基本语序类型学标志着语序类型学的开端。在语言学定量转向的背景
学位