半监督中文实体关系抽取研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户：ilfang456

【摘要】

：

随着计算机的广泛普及和互联网的飞速发展,现实世界的信息呈指数级增长。一个需要迫切解决的问题就是如何从这些海量的信息中获取出人们所需要的特定信息。关系抽取是信息抽

【作者】

：

杨肖方

【机构】

：

厦门大学

【出处】

：

厦门大学

【发表日期】

：

2012年期

【关键词】

：

关系抽取语言信息结构信息半监督学习中文实体

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机的广泛普及和互联网的飞速发展,现实世界的信息呈指数级增长。一个需要迫切解决的问题就是如何从这些海量的信息中获取出人们所需要的特定信息。关系抽取是信息抽取领域中一个重要的研究方向,自动识别出用自然语言表的两个实体之间的关联信息,例如“蒂姆·库克是苹果公司的首席执行官”,人物实体“蒂姆·库克”和组织机构实体“苹果公司”之间存在雇佣关系,即“蒂姆·库克”是“苹果公司”的雇员,担任首席执行官的职位。　　该文利用半监督学习算法进行中文关系抽取研究。为表征实体关系的实例,结合特征向量和树核函数两种方法:特征向量表征了实体关系的语言信息,而树核函数表征了实体关系的结构信息。采用自训练、互训练和标签传播半监督学习算法进行中文关系检测和类型识别。针对语料中存在缺失关系类型的问题,提出了基于半监督学习的中文关系类型发现模型。下面针对中文关系检测和识别与中文关系类型发现两个角度进行深入的分析:　　 1)利用半监督学习方法进行中文关系检测和类型识别。语料中非关系实例所占的比例达到了95％。为了防止出现太多的噪音,首先进行关系检测,过滤非关系实例,结合实体对上下文和对应的词性、两个实体的类型和子类型以及两个实体的位置关系等特征以及结构化特征,利用自训练、互训练、标签传播算法等半监督学习算法对候选关系实例进行关系检测工作。然后利用对应的半监督学习算法在候选关系实例上进行关系类型识别。在ACE2005中文语料上的实验结果显示,在关系类型识别上半监督学习算法取得了良好的效果。　　 2)针对语料中存在缺失关系类型的问题,提出了基于半监督学习的中文关系类型发现模型。首先采用半监督学习对候选实例进行学习。然后,利用聚类的方法对剩余的候选关系样例进行聚类分析。结合关系的语言信息和结构化信息,在ACE2005中文语料的六大类关系类型进行实验,实验结果表明,基于半监督模型的关系类型发现可以取得理想的实验结果,并且针对六大类关系类型的关系样例数目不均所造成的实验结果差异进行了统计和分析。

其他文献

基于回归学习的图像超分辨算法研究

图像超分辨是当前数字图像处理研究中的热点问题,其目的就是在不改变现有成像系统的前提下,以低成本从低分辨率图像中得到高分辨率图像。对于这一病态问题,主要有三类解决方

学位

正交基匹配追赶高斯过程回归学习图像超分辨算法

基于NPC三电平逆变器拓扑结构的优化研究

多电平逆变器具有母线电压利用率高、输出电压高、谐波成分少等优点,已成为大功率、高电压逆变器领域研究的热点。本文基于中性点箝位(Neutral Point Clamped,NPC)型三电平逆变器拓扑结构的优化进行以下三个方面内容的研究。1.以NPC型三电平逆变器的基本拓扑结构为基础,阐述了三电平逆变器的工作机理。在此基础上对NPC型三电平逆变器的基本拓扑结构进行优化,引进了 Z源网络,构成一种不同的

学位

拓扑结构NPC型三电平逆变器空间矢量脉宽调制中点电位波动Z源网络Z源逆变器

基于局域最大最小概率机的无线网络流量预测

近年来随着无线网络技术应用的不断推广，安全问题已成为无线局域网发展中遇到的最为关键的问题之一，除了基于密钥管理和认证实现的访问控制技术之外，网络流量预测和异常检测逐渐

学位

无线网络流量预测局域最大最小概率机AICi信息准则KD-Tree“Ki”策略

录井导向模型图的研究与实现

录井导向模型图是利用邻井的测井数据,对区块中的目标储层进行综合分析,建立地层模型,描述测井参数与储层之间联系的综合性图形。导向模型图反映了井眼轨迹在地层中钻进的情

学位

导向模型图围岩GDI+折半查找可维护性

面向数据存储的分布式文件系统的研究与设计

自从互联网诞生以来，尤其是网络应用在最近十年的迅猛发展，很多公司的互联网上的业务数据呈现爆炸性增长的态势，这些数据内容涉及了诸多领域，是公司发展必不可少的保证。继互联网

学位

分布式文件系统元数据海量数据存储分割策略负载平衡

教育类网络信息生态的指标评价体系研究

互联网的迅速发展促进了网络教育的发展,但随之而来也出现了一些网络信息生态问题。本文主要研究了网络信息生态,将信息生态理论应用于教育类网站,针对教育类网站提出了一套

学位

网络信息生态教育指标评价层次分析法可视化技术

无线传感器网络中基于ECC的密钥管理协议的研究

当前,无线传感器网络以其多样化的应用而备受关注。它可以广泛的应用于教育、军事、医疗和交通等领域,并拥有巨大的潜力和市场价值。因此无线传感器网络成为现今一项热门的研

学位

无线传感器网络密钥管理椭圆曲线密码初始密钥删除

全局与局部特征融合的人脸识别研究

人脸识别作为生物特征识别的一个重要分支,一直是模式识别和图像处理领域的研究热点之一。人脸识别克服了传统身份验证的缺陷,有着广泛的应用前景。但是人脸识别无论在二维还

学位

特征融合人脸识别图像处理动态阈值人眼定位算法

模糊概念格的聚类约简方法研究

概念格是形式概念分析理论中的核心数据结构,在信息检索、知识发现等方面得到了广泛的应用。概念格的约简使得形式背景中隐含知识的发现变得更容易,也使得这些知识的表示变得

学位

模糊概念格模糊概念布尔格聚类约简上下确界基底

基于分水岭的SAR溢油图像快速分割算法研究

合成孔径雷达(SAR)是一种利用微波反射信号成像的雷达,因其具有全天时和全天候工作的特点,在军事领域应用比较广泛。近年来,随着科技的发展和SAR的普及,SAR的应用越来越广泛

学位

合成孔径雷达(SAR)图像分割分块阈值分水岭各向异性扩散去斑噪(SRAD)

半监督中文实体关系抽取研究

与本文相关的学术论文