论文部分内容阅读
随着互联网的迅猛发展和广泛应用,网络中包含各种大量信息,例如人物实体与场所实体的关系、人物实体与人物实体的关系。然而这些信息并没有被有效的利用。如何从网络中挖掘出人物实体间的关系是人们日益关注的问题。目前,基于特征向量的实体关系抽取技术已经比较成熟,也是最常用的方法之一。基于特征向量的实体关系抽取方法把实体关系抽取转化为分类问题,因为支持向量机算法(SupportVector Machine,SVM)分类准确度非常高,所以人们一般在基于特征向量方法的基础上,结合SVM分类器进行实体关系抽取研究。然而,这一种普遍的实体关系抽取方法存在着一些不足,本文针对其中两个方面进行了以下研究和改进:一、一般的多分类SVM会存在不可分区域,用其来进行人物关系抽取,会使一些关系得不到分类,从而影响人物关系抽取的结果。针对这一现象,引入DAG-SVM多分类方法来解决人物关系抽取不可分区域问题,鉴于DAG-SVM存在“误差累积”的缺陷,文中将人物关系分为亲属关系、其他社会关系这两大类,并把这两类作为根节点,来缓解“误差累积”现象。通过用一般的多分类方法、FMSVM多分类和DAG-SVM多分类方法进行实验比较。结果表明本文方法对人物关系抽取的准确率有一定的提高。二、在人物关系抽取中,其特征空间维度往往非常高,这样就会造成向量稀疏问题,从而影响关系抽取的效率。针对这一现象,首先将人物关系分为6类,然后引入了文档频率、信息增益、互信息和χ2统计这四种文本文类的特征选择算法,对特征空间进行降维,最后运用SVM分类器抽取人物的实体关系。实验结果表明这四种特征选择算法不仅能够使抽取性能得到保障,还能明显的降低向量空间维数,对实体关系抽取效率有着的极大提高。其中,χ2统计算法效果最佳,信息增益次之。