半监督中文实体关系抽取研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:ilfang456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的广泛普及和互联网的飞速发展,现实世界的信息呈指数级增长。一个需要迫切解决的问题就是如何从这些海量的信息中获取出人们所需要的特定信息。关系抽取是信息抽取领域中一个重要的研究方向,自动识别出用自然语言表的两个实体之间的关联信息,例如“蒂姆·库克是苹果公司的首席执行官”,人物实体“蒂姆·库克”和组织机构实体“苹果公司”之间存在雇佣关系,即“蒂姆·库克”是“苹果公司”的雇员,担任首席执行官的职位。   该文利用半监督学习算法进行中文关系抽取研究。为表征实体关系的实例,结合特征向量和树核函数两种方法:特征向量表征了实体关系的语言信息,而树核函数表征了实体关系的结构信息。采用自训练、互训练和标签传播半监督学习算法进行中文关系检测和类型识别。针对语料中存在缺失关系类型的问题,提出了基于半监督学习的中文关系类型发现模型。下面针对中文关系检测和识别与中文关系类型发现两个角度进行深入的分析:   1)利用半监督学习方法进行中文关系检测和类型识别。语料中非关系实例所占的比例达到了95%。为了防止出现太多的噪音,首先进行关系检测,过滤非关系实例,结合实体对上下文和对应的词性、两个实体的类型和子类型以及两个实体的位置关系等特征以及结构化特征,利用自训练、互训练、标签传播算法等半监督学习算法对候选关系实例进行关系检测工作。然后利用对应的半监督学习算法在候选关系实例上进行关系类型识别。在ACE2005中文语料上的实验结果显示,在关系类型识别上半监督学习算法取得了良好的效果。   2)针对语料中存在缺失关系类型的问题,提出了基于半监督学习的中文关系类型发现模型。首先采用半监督学习对候选实例进行学习。然后,利用聚类的方法对剩余的候选关系样例进行聚类分析。结合关系的语言信息和结构化信息,在ACE2005中文语料的六大类关系类型进行实验,实验结果表明,基于半监督模型的关系类型发现可以取得理想的实验结果,并且针对六大类关系类型的关系样例数目不均所造成的实验结果差异进行了统计和分析。
其他文献
图像超分辨是当前数字图像处理研究中的热点问题,其目的就是在不改变现有成像系统的前提下,以低成本从低分辨率图像中得到高分辨率图像。对于这一病态问题,主要有三类解决方
多电平逆变器具有母线电压利用率高、输出电压高、谐波成分少等优点,已成为大功率、高电压逆变器领域研究的热点。本文基于中性点箝位(Neutral Point Clamped,NPC)型三电平逆变器拓扑结构的优化进行以下三个方面内容的研究。1.以NPC型三电平逆变器的基本拓扑结构为基础,阐述了三电平逆变器的工作机理。在此基础上对NPC型三电平逆变器的基本拓扑结构进行优化,引进了 Z源网络,构成一种不同的
近年来随着无线网络技术应用的不断推广,安全问题已成为无线局域网发展中遇到的最为关键的问题之一,除了基于密钥管理和认证实现的访问控制技术之外,网络流量预测和异常检测逐渐
录井导向模型图是利用邻井的测井数据,对区块中的目标储层进行综合分析,建立地层模型,描述测井参数与储层之间联系的综合性图形。导向模型图反映了井眼轨迹在地层中钻进的情
自从互联网诞生以来,尤其是网络应用在最近十年的迅猛发展,很多公司的互联网上的业务数据呈现爆炸性增长的态势,这些数据内容涉及了诸多领域,是公司发展必不可少的保证。继互联网
互联网的迅速发展促进了网络教育的发展,但随之而来也出现了一些网络信息生态问题。本文主要研究了网络信息生态,将信息生态理论应用于教育类网站,针对教育类网站提出了一套
当前,无线传感器网络以其多样化的应用而备受关注。它可以广泛的应用于教育、军事、医疗和交通等领域,并拥有巨大的潜力和市场价值。因此无线传感器网络成为现今一项热门的研
人脸识别作为生物特征识别的一个重要分支,一直是模式识别和图像处理领域的研究热点之一。人脸识别克服了传统身份验证的缺陷,有着广泛的应用前景。但是人脸识别无论在二维还
概念格是形式概念分析理论中的核心数据结构,在信息检索、知识发现等方面得到了广泛的应用。概念格的约简使得形式背景中隐含知识的发现变得更容易,也使得这些知识的表示变得
合成孔径雷达(SAR)是一种利用微波反射信号成像的雷达,因其具有全天时和全天候工作的特点,在军事领域应用比较广泛。近年来,随着科技的发展和SAR的普及,SAR的应用越来越广泛