论文部分内容阅读
越来越多的实践证明,词汇知识库是自然语言处理系统不可或缺的组成部分,语言知识库的规模和质量在很大程度上决定了自然语言处理系统的成败。这已经成为自然语言处理研究人员和系统开发者的共识。构建概念之间的关系,是建立本体,特别是汉语本体的重要的研究课题,它们是自然语言处理进一步发展所必须倚重的基础知识,不但是建立语言知识库的理论基础,而且有着广泛的应用。目前语义关系库的建立,还是采用手工的方法,工作量很大[5]。如果能够引进计算机的辅助提取,那么建立这样词汇知识体系的效率将大大提高。我们相信,这种词汇间的关系,必然有着其内在的规律,完全有借助程序高效自动抽取的可能。本文利用机器可读词典作为资源,首先通过对释义项进行分类,然后基于释义分析自动生成用于抽取词汇知识的模版,然后采用模版匹配的方法,实现词汇知识的自动抽取,使用的是规则提取加上特征消歧的方法。在机器可读词典中,已经蕴含了许多候选的关系模式,标注词典中一部分具有特定类别的释义进行分析,提取对其中上下位等语义关系有较为明显指示作用的模式,来构建被释义的名词和释义中出现的词汇之间的语义关系。并根据上下文中的形态、句法等特征,建立相应的统计模型用以对结果进行过滤。在实现上述模型,在应用到《应用汉语词典》中后,取得了较好的抽取效果。然后,在前面的研究基础上,通过分析从机器可读词典中手工标注出来的各种上下文信息,研究对概念内涵特征信息进行自动抽取的问题,并做了一些初步的尝试。主要集中在对提取名词的属性特征以及部分形容词(主要是颜色词)的研究,具体方法是先手工标注一部分语料,提取出其“功能”属性的定位特征及其前后的上下文特征,先使用定位特征进行概念内涵特征的候选集的初步抽取,最后使用最大熵方法对候选集进行分类,取得了一定实验性的成果。