论文部分内容阅读
树库是标注有句法信息的语料库,是一种深度标注的语言知识资源。在语料库语言学和计量语言学中,树库可以用于研究各种语法现象以及语言整体的特点;在计算语言学中,树库可以用于训练和测试句法分析器。目前绝大多数相关研究均为单一领域树库,本文在构建的多领域依存树库基础上,从现代汉语句法角度对领域间差异进行了计量研究与分析。本论文共分为五章:第一章,绪论部分。主要介绍论文的研究背景、对象、内容、方法和意义。研究背景中包括树库资源建设现状、树库及基于树库的语言学研究现状。第二章,多领域树库构建。我们构建的树库包含新闻、微博、口语、医药和专利五个领域,采用的是北京大学多视图树库依存标注体系(简称PMT),设置有26个词性标记和30个依存关系标签。第三章,依存树库错误自动检测与分析。树库质量与句法分析精度成正相关关系,因此分析依存树库错误,对提升树库质量有重要作用。我们对通用树库二校和三校中的错误进行了统计分析。二校中的错误类型集中在词性、语法单位和语法结构层次标注三个方面。基于产生式规则进行三校错误自动检测,进一步,将所有错误分为三个层次:分词错误,词性与句法角色不符,词性正确、句法角色错标。第四章,多领域依存树库计量比较与分析。我们选取了词类、依存关系、词类句法功能、同一句法成分的词类构成、产生式规则5个角度,对比研究现代汉语句法的领域差异,并对其进行了描述和解释。词类方面,微博和口语领域、医药和专利领域之间的差别较小,新闻领域呈现出综合性特点。依存关系方面,医药和专利领域没有IOB(间接宾语)和RED(重叠)依存关系,微博和口语领域中HED(核心)、ADV(状语)比其它三个领域多。新闻领域中有大量的MT(时态)。词类句法功能方面,各类词在新闻、医药和专利领域中充当定语的比例要高于微博和口语领域;名词充当宾语、代词充当主语、动词和形容词充当谓语的能力在微博和口语领域均要强于新闻、医药和专利领域:名词和形容词从“关联标记模式”来看,各个领域有所不同,且与前人结论不一致。同一句法成分的词类构成方面,充当定语的形容词比例要远远低于我们的认知;各个领域中作状语的词类有所差异,微博和口语领域中副词占统治地位,新闻和医药中副词和介词平分秋色,专利中则是介词占优势。产生式规则方面,五个领域中,同一句法结构既有相同的词类序列,也存在自己特殊的词类序列。这些语言知识既检验了前人的研究结论,又可以发现依靠内省法所观察不到的语言现象。第五章,结语。通过回顾与总结,指出了本文研究的不足,对未来的研究进行展望。