论文部分内容阅读
随着信息社会对信息自动化处理要求的不断提高,越来越需要计算机能对自然语言进行深层分析,比如文本校对、机器翻译、自动文摘等等,这就要求我们为计算机提供尽可能多的语言知识尤其是语法知识,使其能够进行正确的分析进而做到真正的“理解”。现有的汉语语法体系,可以说已经研究得比较深入了,但其主要是面向人的,面对计算机这个新的交际伙伴,其研究成果还是显得有些粗糙。因此,要真正实现信息自动化处理,必须加大汉语语法研究的力度,加细语法刻画的颗粒度,构建真正适合计算机处理自然语言需要的汉语词类体系。本文正是在这样的服务宗旨下展开研究的。 本文研究主要从如下三个方面展开: 1.以语料库为信息源,采用统计并辅以内省的方法,详细考察了名词、动词、形容词和副词中高频的3514个词的语法功能,构建了语法功能信息库,并以信息库中统计的数据为依据,彻底贯彻“按照词的语法功能划分词类的标准”,依据“句法功能完全相同即为一类”的原则,对3514个常用词进行了分类,最终分出676类,其中,一词一类的有364类,两词一类的有107类,两词以上同类的有205类,对于一词一类和两词一类的,我们放到词典里描述,剩下的205类就是新实词词类体系所包含的类别。 2.从句法功能复杂度和分类结果两个方面对现有的词类体系和我们构建的词类体系进行了对比研究。研究结果表明,只有10.1%的词在两种体系中的句法功能复杂度是相同的,而有84.1%的词在旧体系中的句法功能复杂度是高于新体系的。这说明现有的词类体系夸大了汉语中词的多功能现象,归属同一类别的词,不管是有1项功能还是具有10项功能都给以相同的标记显然有失偏颇,不能客观地反映汉语的实际情况。另外,从分类结果看,新体系中存在一个词类包含旧体系中多个词类的情况,这说明旧体系通过找“特点”来为词归类的做法不可取,必须在详细考察的基础上才能做到“词有定类”。 3.从清华大学100万字的汉语句法树库中提取了11,206个V+V序列和10,081个v+n序列进行了考察。前一种序列匹配后只有一种句法关系的有2679种组合模式共10,296个实例,正确率分别为82.9%和91.9%。后一种序列匹配后只有一种句法关系的有1462种组合模式共7189个实例,正确率分别为70.7%和71.3%。其他有两种以上句法关系的模板,尽管不能确定具体实例中究竟是哪种关系,但相对于旧体系来说,其歧义的数量大大减少了。统计结果表明,新体系在外显式歧义结构的消解和基本名词短语的识别方面都起到了很好的作用。