论文部分内容阅读
语料库的出现以及语料库语言学的诞生,在语言学研究中具有划时代的意义。语料库出现后发展迅猛,容量不断扩大,功能不断增强,研究和应用的范围也不断扩展。在这个过程中,语料库标注发挥了巨大作用。语料库标注是语料库的重要组成部分,已成为语料库研究的热点。语料库标注能够揭示语言深层信息,拓展语料库的功能,是语料库资源用于计算语言研究的前提条件。目前尚未有文献全面论述语料库标注,以往对语料库标注的研究侧重于构建实用的标注系统,孤立地研究某一种标注类型,散见于大型语料库的技术规范中缺乏对相关理论的思考和探讨。文章从计算语言学的角度,论述语料库标注的概念、意义﹑原则﹑类型等一系列问题,侧重介绍结构标注和语义标注这两种标注类型,重点提出了一种结构标注模型和语义标注模型。引言部分总结了目前国内对语料库标注的研究现状,对研究内容﹑研究方法做出说明,指明文章的重点。第二章联系语料库的特征归纳出语料库标注的概念,从两方面阐述语料库标注的意义。在阐释语料库语言学家Leech提出的语料库标注原则基础上,针对新型语料库的标注需求补充了四条标注原则:①以语料库的主要用途为导向设计实用的标注系统;②注意不同层次语料库标注之间的的兼容性;③重视语料库标注对相关软件的支持;④设计便于共享的语料库标注。第三章介绍新旧两种语料库的标注模式,阐明一系列围绕TEI标注模式的概念。引入与TEI模式联系紧密的标准通用置标语言。对几种标注类型做出总结。第四章分析语料库的语法标注,重点论述语法标注中的结构标注,介绍两种主要的结构标注语料库:短语结构树库以及依存结构树库,并针对汉语语法结构特点提出句法结构最简标注模型。该模型以直接成分分析法作为标注理论,通过简单的符号系统描写句子的语法结构,用类似词性标注的形式实现了结构标注,对汉语结构标注有一定的参考价值。第五章以语义标注为主要内容,在前人研究基础之上,提出了一种句义标注模型,该模型句义标注部分参考格语法制订标注集,标注种类包括词性标注,结构标注,句义标注,信息容量大且易于在机器中实现,为汉语句义标注提供全新的可供参考的模型。第六章从语法标注和语义标注两个方面概括归纳汉语语料库标注的特点。第七章为结语,回顾全文同时指出日后需要进一步完善之处。