实体关系自动抽取技术的比较研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hnldlxz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络技术的不断发展,海量信息以电子文档的形式出现在人们面前。从这些自然文本中提取出有用的信息,日益成为人们关注的问题。因此信息抽取技术应运而生,关系抽取是其中的一个子任务。文本中特定的事实信息称为实体,而确定这些实体之间的关系称为实体关系抽取。实体关系抽取对本体库的构建以及改进信息检索技术等有重要的作用。本文重点对实体关系抽取技术的几个问题进行了研究和解决:首先,本文抽取了传统命名实体以外的存在重要语义关系的词:领域术语。针对领域术语评测数据的不统一和评价的困难性,通过词典评测、人工评测在准确率、召回率、F度量等评价指标上与几种主流的基于统计的术语抽取方法进行了详细的对比和分析。本文还提出了基于线性支持向量机权重的术语抽取方法,实验结果表明,该方法能有效地抽取领域术语。其次,本文基于不同的应用需求,利用统一的语料对比研究了基于特征的有监督、半监督和无监督的实体关系抽取方法。在有监督实体关系抽取方法中,前人的研究工作没有考虑各种特征对两个实体间无关系即no-relation的影响。对此,本文详细对比了通用特征:实体周围词语、实体类型、子类型、实体位置、实体中心词和内容的依存句法分析对真正关系和no-relation的影响,并提出了新特征:特征词位置信息,实验表明该特征能有效提高实体关系抽取的准确率。本文通过Bootstrapping半监督实体关系抽取方法进行了不同的对比实验:实体特征、种子集规模对实体关系抽取性能的影响;同等条件下,半监督实体关系抽取方法与有监督实体关系抽取方法的性能比较。实验结果表明半监督实体关系抽取能够提高实体关系抽取的准确率。无监督实体关系抽取方法主要采用的是聚类方法,因此本文主要研究了聚类算法以及合并策略对实体关系抽取的影响。本文对比研究了三种聚类算法,即K-means、自组织映射和Affinity Propagation算法,以及两种合并策略(DCM和Cosine)。Affinity Propagation算法能够取得较优的结果,自组织映射算法在运行时间上更有优势。
其他文献
针对传统的交通参数检测器存在的交通参数提取不足及安装、维护上的损耗问题,以车辆视频序列为研究对象,论文在已有的运动检测算法理论的基础上,改进了道路图像分割算法以及
随着信息时代的到来,互联网技术得到了飞速的发展,数字化图书馆、数字化办公也变得越来越普及,于是网络上的信息在以几何级数般的速度在膨胀。面对网络上如此浩瀚的信息,和人们有
近年来,数据挖掘技术被广泛地应用到各个行业领域中,已逐步成为当今计算机应用技术和理论研究中最热门的领域之一。在实际的数据挖掘过程中,因为真实数据经常出现缺失、冗余、不
人脸识别作为一种新兴的生物特征识别技术,由于其具有直观性、被动性和非侵犯性而成为当今生物特征识别中最活跃的一个领域。人脸识别问题的关键是识别系统能否适应实际应用
近年来,无线传感器网络得到了极大的发展。无线传感器网络是由部署在监测区域内大量的廉价微型传感器节点组成,通过无线通信方式形成的一个多跳的自组织网络,其目的是协作的
PLC(Programmable Logic Controller)作为工业自动化领域中最重要、应用最广泛的控制装置,稳居工业生产自动化三大支柱(可编程控制器、机器人、计算机辅助设计与制造)的首位。
随着全球经济一体化的到来,市场上产品之间的差别越来越小,行业内企业的技术优势也逐渐缩小甚至消失,从而导致市场竞争形式的根本性变化。现代市场的竞争已超越了传统意义上的企
网格计算是近年来国际上兴起的一种重要网络技术,它可以帮助人们更好地共享Internet上的一切资源,其重要组成部分之一是作业调度。网格具有动态性、分布性、异构性、多样性等
Internet高速繁荣的今天,每天出现在网站上的信息成指数型增长。有效地管理组织这些高速增长的信息,并从海量的信息里准确快速地找到客户所需要的信息已经成为数据挖掘工作者
随着制造业管理技术的进步,尤其是计算机和网络的飞速发展,面对激励的市场竞争和个性化的客户需求,制造业必须能够优化业务过程和快速重组各类资源,来提高企业的竞争力。工作