论文部分内容阅读
目前,中文信息处理的最大难题是如何实现汉语句子的自动标识。“句处理”主要分为单句处理和复句的处理,现在研究较多的是单句的处理。而复句是连接单句与篇章的桥梁,因而复句的自动标识更加重要,但复句的自动标识及其艰难,目前很少有人涉及。关系词在复句中是一个重要组成部分,一个句子的逻辑语义就主要体现在关系词上,因此,自动标识复句关系词是识别复句的关键环节。但是,复句中的“准关系词”有时充当关系词,有时又不充当关系词,所以要实现计算机自动标识复句关系词也非常困难。搭配强度是指两个词之间相互吸引的程度,搭配强度越大意味着这两个词共现的概率越大。搭配强度大、共现频率高的两个词我们就称作它们具备搭配关系。本文对复句中的关系词自动标注是针对具有搭配关系的关系词来进行的。对于现代汉语复句关系词的自动标识,一般有基于规则的方法、基于统计的方法以及规则和统计相结合的方法。本文提出的方法是基于大规模语料库的,完全基于统计的方法。本文首先基于复句关系词本体知识库,提取已经经过分词标注处理的复句中的准关系词,然后设计一种搭配强度的评估方法先判别从复句中提取出来的多个准关系词是否符合搭配关系。其中,搭配强度的评估方法主要是基于对大规模语料库的统计,统计出关系词的出现频率、搭配关系词的搭配距离、共现频率,基于这些信息计算出搭配关系词的搭配强度,观察其是否满足一定的阂值,然后判定它们之间是否存在搭配关系。在判别了搭配关系后,在搭配环境下对这两个准关系词进行自动标识。先将待标注的准关系词及其上下文语境分为标注为关系词和不标注为关系词的两个序列,利用相对词频,分别计算它们和搭配词的搭配强度,然后进行比较,取较大值的标注结果,从而完成准关系词的自动标识。