论文部分内容阅读
随着计算机的普及以及互联网的迅猛发展,知识获取的来源、数量和形式也随之发生了根本的变化.目前,在Internet的数据中蕴含了海量的知识,同时也含有大量的垃圾信息,完全人工方式获取知识已经不能满足要求,因此必须研究大规模知识获取的方法,以减少手工知识获取的代价.如何从庞大的网络信息源中获取用户需要的知识,成为人工智能研究的一个重要课题,这为自动知识获取提出了新的挑战和迫切需求.上下位关系获取是文本知识获取中一个基本而又关键的问题,它为进一步的信息处理如数据库查询、数据挖掘、文本挖掘等提供了基础性支持.同时上下位关系获取还能对信息检索、知识问答、个性化信息服务等的实现起到支持作用.
本文主要针对上下位关系的模式表示和获取、概念和上下位关系的获取、上下位关系的验证、上下位关系意义识别等问题,开展了如下几个方面的研究工作:
(1)一种上下位关系模式的表示和获取方法.目前上下位关系获取的主流方法是基于模式的方法,其关键是模式的表示和获取.本文采用框架表示上下位关系模式,使用项、连接符和谓词作为模式中的组成元素.在模式学习中使用种子迭代策略自动获取模式,给出了一种基于模式特征的种子选取算法;给出了一种基于特征词的种子上下位关系驱动的模式学习算法,并对上下位关系模式进行了分类.
(2)一种基于模式的上下位关系获取方法.基于模式的上下位关系获取是从语料库中以句子为单位进行模式匹配,找到符合上下位关系模式的句子,然后利用概念抽取方法,从模式匹配句子中抽取出可能蕴含上下位关系的部分.本文针对基于模式上下位关系获取中遇到的概念获取问题,给出一种从符合上下位关系模式句子中初步获取上下位关系的方法.在模式匹配后,首先利用半自动获取的词典和句型对候选概念进行外层剥离处理,然后利用概念特征分析,对候选概念进行内部聚集验证,最后根据不同标记分类处理,初步获取上下位关系.
(3)一种用于上下位关系验证的概念空间构造方法.初步获取的上下位关系中仍然存在许多错误关系,需要考虑进一步的关系验证,本文首先定义了概念空间中的一些基本概念,然后给出了概念空间的生成算法,并以概念空间中的边和点为中心,着重分析了空间结构对上下位关系的影响程度,这为基于概念空间的上下位关系验证提供基础性的支持.
(4)一种基于概念空间的上下位关系循环迭代验证方法.本文将初步获取的上下位关系导入概念空间中,然后对概念空间中概念词和上下位关系进行分析,给出了上下位关系所具有的特征,并将这些特征以产生式规则的形式用于上下位关系的验证,设计了一种基于概念空间的启发式循环迭代验证模型,通过此验证模型,错误上下位关系将被移出概念空间.实验结果表明,启发式循环迭代验证可以在损失少量正确上下位关系的情况下,有效的提高上下位关系的正确率.(5)一种基于概念空间的上下位关系意义识别方法.针对上下位关系在分类层级结构建立阶段遇到的多义性问题,给出一种概念空间中上下位关系意义识别的方法.首先获取上下位关系意义的语境,利用《同义词词林》对每个语境进行词义修正,构建"关系-词"的高维向量空间,然后通过潜在语义分析降维,获取上下位关系意义的潜在语义,最后组平均聚类后得到关系的意义划分,实验分析表明了意义识别方法的有效性.