论文部分内容阅读
本文以HNC现代汉语句子级语义标注语料库为依托进行语言现象的研究,通过分析标注语料,对一些特殊的语言现象,如语义块分离、特殊结构和句式等进行分析和归纳,以期从纷繁的语言表象中找到其内部存在的规律。
基于HNC的现代汉语句子级语义标注语料库是以HNC(Hierarchical Network ofConcepts,概念层次网络)理论为指导,以句子为标注的基本单位,为连续文本语料标注语义框架信息的语义标注语料库。标注的信息所提供的丰富的语义知识,不仅对于计算机理解语义,而且对于语言学工作者也是一个非常宝贵的资源。
本文在HNC理论句类体系的基础上,重点研究了句子级语义标注语料库的标注内容、标注方法和标注难点,确定了XML的标注规范,进行了语料库查询工具的功能设计。研究内容主要有以下几个方面:
(1)介绍了语料库研究的现状,指出HNC语义标注语料库的建设具有开创性意义;
(2)确定了语料库的标注内容,在HNC理论的指导下,以句子作为标注的基本单位,分别从语言空间和语言概念空间进行结构和语义两方面的标注;
(3)分析了语料库的标注难点,探讨了语义块核心要素部分的缺省问题、包装成分和分离成分的判定问题、“的”字短语和“所”字结构的标注问题、与句式有关的句类判定问题等标注难点,给出了自己的标注方案;
(4)建立了语料库的XML标注规范,从篇章段落、句子、语义块、块素等层级确定了XML标注元素及属性;对元素和属性进行了Schema模式定义,保证了文档的有效性和良构性;用XSL进行XML语义标注语料库的结构转换,使语料库呈现出用户所需要的表现形式;
(5)设计了语料库的查询工具,为语料库使用者提供相应的语料库查询工具,方便用户从语料库中检索到自己想要的信息,最大限度地发挥语料库的使用价值。
句子级语义标注语料库的建设填补了中文信息处理资源建设的一项空白,它不仅对HNC理论的学习和HNC句类分析系统的完善具有重要意义,而且也可以为广大的语言学工作者进行语言研究提供帮助。该语料库的建设对整个中文信息处理乃至语言教学与研究都具有重要的意义。