论文部分内容阅读
从理论上讲词是备用单位,因此词的集合应该是一个可以列举的集合,但实际上,有大量的词语没有被现有的词典所收录,各家词典所收录词语的差异也非常大,这意味着对任何一部词典来说都存在着大量的未登录词(未在词典中收录的词)。另外,由于新词语不断产生,未登录词的规模也在不断扩大之中。因此,未登录词处理已经成为自然语言处理中一个亟待解决的问题。未登录词处理主要包括识别、词类标注和语义类标注等内容。目前自然语言处理学界对于未登录词识别研究较多,对于未登录词词类标注和语义类标注则研究较少。因此,本文主要专注于现代汉语未登录词词类标注和语义类标注的研究。在未登录词词类标注和语义类标注过程中主要有两类可以使用的特征,即内部特征和外部特征。所谓内部特征指未登录词的成分、成分的属性以及成分、成分属性的组合序列;所谓外部特征指未登录词在语料中的分布,通常用未登录词的上下文来表示。对于词类问题,语言学界有着比较深入和持久的讨论,目前基本的共识是词类是语法功能(分布)的类,划分词类的主要标准是依据词语的语法功能,也就是词语外部特征。但是自然语言处理学界进行汉语未登录词词类标注主要依据词语构成成分属性与词语整体词类之间的关联关系,也就是词语内部特征。两者在认识上存在较大的分歧。我们需要回答的问题是:外部特征在汉语未登录词类判断中是否有用武之地?对于词义问题,语言学界对于词素义与词义之间的关联关系类型有着比较系统的分析,普遍认为现代汉语中许多词语内部结构与整体的意义存在着密切的联系,而自然语言处理学界进行汉语未登录词语义类标注也主要使用内部特征,两者在认识上基本是一致的。但是在英语研究中并不是这样,自然语言处理学界进行英语未登录词语义类标注时主要使用外部特征,这说明外部特征对于未登录词语义类标注也是很有价值的。因此,英语和汉语在处理未登录词语义类时出现了观点上的分歧。我们同样需要回答一个问题:外部特征在汉语未登录词语义类判断中是否有价值?上述两个问题可以具体化为:从面向计算机的角度看,词的词类、语义类与内部特征关系更密切还是与外部特征之间关系更密切?进一步,如果单独使用外部特征进行未登录词词类标注和语义类标注效果要差于单独使用内部特征,那么两种特征结合是否能够获得优于单独使用内部特征的结果?
本文在前人研究工作的基础上,构建了大规模的生语料库,分别使用基于内部特征和外部特征的方法以及两种特征相结合的方法来自动处理未登录词词类和语义类标注的问题。主要进行了以下工作:⑴将平行原则(陈保亚,1999)具体化和概率化,自动抽取数百条双向平行类推和成对替换类推规则。⑵提出语类(词类和语义类)推导的内外结合原则,以之为指导来进行未登录词词类标注和语义类标注,此原则从理论上讲也适用于未登录词其它属性(比如情感)的标注。⑶提出一个内部特征与外部特征相结合的汉语未登录词词类判断算法、一个基于内部特征的汉语未登录词语义类标注算法、一个结合内部特征与外部特征的汉语未登录词语义类标注算法。⑷使用上述算法进行了语义词典修正和扩充的实验。本研究得到以下结论:①现代汉语未登录词(尤其是复合词)的词类和语义类与内部成分的关联比与外部特征的关系更密切,基于内部特征的方法在进行汉语未登录词词类和语义类标注时能获得优于基于外部特征方法的结果;②虽然基于外部特征的方法表现不如基于内部特征的方法,但是如果能够很好地将内部特征与外部特征方法结合起来,可以获得优于单独使用内部特征方法的结果,其根源在于外部特征具有一定的消解歧义的作用。