基于特征向量的人物关系抽取方法研究

来源 :华东交通大学 | 被引量 : 0次 | 上传用户:five126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展和广泛应用,网络中包含各种大量信息,例如人物实体与场所实体的关系、人物实体与人物实体的关系。然而这些信息并没有被有效的利用。如何从网络中挖掘出人物实体间的关系是人们日益关注的问题。目前,基于特征向量的实体关系抽取技术已经比较成熟,也是最常用的方法之一。基于特征向量的实体关系抽取方法把实体关系抽取转化为分类问题,因为支持向量机算法(SupportVector Machine,SVM)分类准确度非常高,所以人们一般在基于特征向量方法的基础上,结合SVM分类器进行实体关系抽取研究。然而,这一种普遍的实体关系抽取方法存在着一些不足,本文针对其中两个方面进行了以下研究和改进:一、一般的多分类SVM会存在不可分区域,用其来进行人物关系抽取,会使一些关系得不到分类,从而影响人物关系抽取的结果。针对这一现象,引入DAG-SVM多分类方法来解决人物关系抽取不可分区域问题,鉴于DAG-SVM存在“误差累积”的缺陷,文中将人物关系分为亲属关系、其他社会关系这两大类,并把这两类作为根节点,来缓解“误差累积”现象。通过用一般的多分类方法、FMSVM多分类和DAG-SVM多分类方法进行实验比较。结果表明本文方法对人物关系抽取的准确率有一定的提高。二、在人物关系抽取中,其特征空间维度往往非常高,这样就会造成向量稀疏问题,从而影响关系抽取的效率。针对这一现象,首先将人物关系分为6类,然后引入了文档频率、信息增益、互信息和χ2统计这四种文本文类的特征选择算法,对特征空间进行降维,最后运用SVM分类器抽取人物的实体关系。实验结果表明这四种特征选择算法不仅能够使抽取性能得到保障,还能明显的降低向量空间维数,对实体关系抽取效率有着的极大提高。其中,χ2统计算法效果最佳,信息增益次之。
其他文献
本文的研究工作主要是基于安徽省二○○八年科技攻关计划面上项目(08010204253):“嵌入式集成视觉辅助行车安全系统”和安徽省二○○八年度科技计划项目(08020203013):“基于
随着互连网的发展,P2P(peer-to-peer)已经成为发展最快的网络应用之一。有关调查表明,P2P业务己悄然占据了互联网业务总量的60%~80%,成为杀手级宽带互联网应用。P2P业务流量在
随着多媒体应用领域对三维建模速度和质量不断提高的要求,通过修改已有模型文件进行设计制作成为了提高效率、降低成本的重要途径。由于传统检索系统采用关键字进行检索,常常
近几年来,随着计算机技术和互联网技术的普及以及数据库技术的发展,各个应用领域的数据库中都积累了大量的数据,通过数据挖掘技术分析和理解这些数据,揭示其中隐藏的有用信息
学位
人脸作为图像与视频中最重要的视觉对象之一,提供了大量视觉信息,是人类进行身份确认最方便最直观的方式,因此一直是机器视觉领域的研究热点。在目前的人脸图像信息处理领域中,包
随着Internet的高速发展,网络信息已经由传统的以文字图片为主发展为以音视频为代表的多媒体信息。对于网络视频直播、文件下载等大规模数据传输,组播是一种理想的解决方案。但
信息系统自20世纪60年代问世以来,在各行各业得到了广泛而深入的应用。信息系统在我国大型企业中的应用已基本普及,在中小企业中的应用正逐步拓展。随着信息系统功能的日趋复杂
工作流技术是当前计算机应用领域和计算机信息技术领域迅速发展的一项新技术。基于工作流的管理系统已成为一种趋势,并逐渐成为软件开发的一个基础平台,特别是信息系统,工作流是
信息技术是现代企业赖以生存和发展的基础,在企业信息化的过程中,建立了大量的IT支持系统,由于历史原因这些系统形成一个一个的“信息孤岛”,企业应用集成技术面对这一问题孕