论文部分内容阅读
本文利用机器可读词典作为资源,首先研究了词汇间关系信息的抽取,使用的是规则提取加上特征消歧的方法。在机器可读词典中,已经蕴含了许多候选的关系模式,标注词典中一部分名词的释义进行分析,提取对其中上下位等语义关系有较为明显指示作用的模式,来构建被释义的名词和释义中出现的名词之间的语义关系。并根据上下文中的形态、句法等特征,建立相应的统计模型以消除歧义。实现上述模型,在应用到《应用汉语词典》中后,取得了良好的抽取效果。
然后,在前面的研究基础上,通过分析从机器可读词典中手工标注出来的各种上下文信息,研究对概念内涵特征信息进行自动抽取的问题,并做了一些初步的尝试。主要集中在对提取名词“功能”特征的研究,具体方法是先手工标注一部分语料,提取出其“功能”属性的定位特征及其前后的上下文特征,先使用定位特征进行概念内涵特征的候选集的初步抽取,再使用决策树方法对候选集进行分类,取得了一定实验性的成果。