论文部分内容阅读
知识工程是人工智能的一个应用分支,指的是运用人工智能的原理、方法和技术,以知识为处理对象,去挖掘、构建和完善一个知识系统的学科。知识工程的主要研究内容包括知识的表示、知识的提取和知识的运用等三部分。在知识的表示中,概念是其核心的元素,因此知识的提取大都是以概念为基本单元的提取。随着互联网信息时代的到来,知识工程拥有了海量数据的输入,从规模庞大的无结构化或者半结构化的文本中抽取出概念相关的知识,对于知识库的构建、扩充和完善具有非常大的指导作用。因此,知识的提取成为当前研究所关注的热点,也是本文关注的重点。 本文的主要工作包括以下几方面: 1)对于概念实例和属性的提取,针对当前基于模式的方法召回率往往比较低的问题,本文提出了一种基于并列结构的概念实例和属性的同步提取方法,通过综合利用并列结构模式和上下文模式等两种模式的优点,在传统的基于上下文模式的提取算法之前,首先使用并列结构模式去获得一些语义十分相似的词语集合,这些语义相似的词语集合在融入到基于上下文的提取算法中时能够使得本文的方法获得更多的候选概念实例和属性,实验结果表明本文的方法在准确率不下降的情况下能够获得较高的召回率。 2)对于实体实例细分类任务,针对当前的分类方法采用的特征都比较朴素而导致准确率不高的问题,本文提出了一种混合多特征的实例细分类方法,算法的输入是每个类别的种子实例。除了使用传统的上下文窗口特征和词义消歧特征,本文还融入了三种新的特征:词聚类特征、实例相关特征和类别特异性特征。实验结果表明,这种混合多特征的方法能够大大提高实例细分类的性能。 3)对于商品评论中的属性词抽取,针对当前表现最优的Bootstrapping算法准确率不高的问题,本文提出了一种基于半指导的商品评论中的属性词抽取方法,在原有的Bootstrapping方法中融入一个基于上下文特征的自学习的分类器。算法的输入是人工标注的少量属性词和情感词作为原始的训练语料。实验结果表明,这种新的融合上下文特征的Bootstrapping框架能够大大提高实验结果的准确率。 综合以上三个方面的研究成果,本文认为在概念知识的自动抽取的相关任务中,人工输入都会带来结果的大幅提高,无论输入是一些人工制定的模式,还是人工标注的实例和属性。但是对于海量文本来说,较多的人工输入会耗费大量的人力和时间,因此弱指导的方法更加适合这些任务。在未来的工作中,将尝试引入一些从结构化资源中获得的数据来代替人工输入去获得更好的结果。