论文部分内容阅读
信息抽取的主要目的是将非结构化的文本转换为结构化的信息,这既可以满足人们从海量信息中得到有价值信息的需求,同时也是信息检索、自动问答系统等方面的基础技术。实体关系抽取是信息抽取的重要环节,目前已经成为热门的研究课题且具有广阔的应用前景。在近年的研究中,人们把实体之间的关系抽取转化为分类问题,构造相关的关系实例,通过机器学习算法训练得到分类器,来判断候选关系属于哪一类预定义关系。 在机器学习算法中,SVM(Support Vector Machine)分类的精确度最高,KNN(K-Nearest Neighbor)居于其次。由于SVM所采用的核函数可以将非线性的分类转换为线性的分类问题,而且具有隐含的高维分类特点,因此基于核函数的实体关系抽取方法成为目前应用最为广泛的方法。针对采用SVM进行分类以及核函数本身在中文实体关系抽取中的不足,本文的主要工作以及创新点如下: 1.在基于SVM的中文实体关系抽取方法中,错分的样本点大多数都分布在特征空间中最优分界面的附近,是因为采用SVM进行分类时只取一个代表点进行分类,本文针对这一问题提出了一种基于KSVM的中文实体关系抽取的方法。该方法结合SVM和KNN算法各自的优势,对于在分界面附近的样本点使用KNN进行分类,因为使用KNN进行分类时把每一个样本点都看做是代表点;对于离分界面较远的样本点使用SVM进行分类。最后在中文语料库上进行了实验,验证了该方法具有更好的分类效果。 2.采用基于树核函数方法进行关系抽取时,关系实例结构语法树所包含的信息越丰富且冗余信息越少,则其抽取效果越好。为此,本文参照Moschitti提出的三种树型拓展结构,提出了一种基于PartialTree核函数的中文实体关系抽取方法。该方法依然使用语法结构树为处理对象,借鉴序列挖掘算法,挖掘出包含更为详细信息的结构化子树,再使用本文设计的PartialTree核函数计算两个关系实例之间的相似度来进行分类。最后通过在中文语料上的实验证明了该方法的有效性。