基于主动学习和远监督的开放式关系抽取研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：arsonloupeen

【摘要】

：

随着互联网，特别是WEB2.0的快速发展，网络数据爆炸式增长。每天都有大量UGC(User Generated Content)网络内容产生和发布，怎样从浩大的网络数据中提取出有价值的信息，为进一步分

【作者】

：

陈茂森

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2018年期

【关键词】

：

中文信息开放式关系抽取主动学习远监督

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网，特别是WEB2.0的快速发展，网络数据爆炸式增长。每天都有大量UGC(User Generated Content)网络内容产生和发布，怎样从浩大的网络数据中提取出有价值的信息，为进一步分析和决策提供依据，已经成为亟待解决的问题。开放式关系抽取技术，不限定关系类型，不受语料限制，能适用于大规模网络数据，具有领域自适应、泛化能力强等特点。在开放式中文关系抽取领域，主要存在两大问题，一是标注语料少;另一个是新的关系难以学习。本文对这两方面的问题进行了细致的分析和研究，创新性地将开放关系抽取问题划分成两个阶段，第一阶段采用学习方法确定是否存在关系，第二阶段确定具体的关系，主要的贡献点和成果如下:　　1.提出了主动学习的算法框架。为了解决标注语料少的问题，在第一阶段采用主动学习的思路，自适应不同领域语料，利用算法和人工结合的方式构造健壮模型。具体地首先选取一批种子语料，构造初始分类模型，然后采用异质模型融合样本挑选算法对未标记样本挑选，挑选出最富有信息量的样本供人工标注，然后再加入到种子语料中，如此迭代使得初始模型不断精确且能适应该语料，从而使模型准确率不断提高。　　2.提出了异质模型融合的样本挑选方法。为了挑选出最富有信息量的样本，达到标注一个，影响一批样本的效果。本文尝试将不同结构类型的分类模型应用到样本上，提出了异质模型融合的样本挑选方法。将线性模型（比如逻辑回归）、树模型(比如XGBOOST)、核模型(比如SVM)和深度模型（比如多层感知机）等结合在一起，融合不同模型的优点，形成一个强大的统一模型，从而挑选出最重要的样本供人工标注，最大程度减少标注成本。在1000个小规模样本集上的实验表明，该方法选择的10个样本的准确率和随机挑选60个样本的准确率相当，说明选择的样本具有较强的代表性，能达到标注一个，影响一批的效果，极大的释放了人工标注成本。　　3.基于远监督的新关系学习方法。确定目标句子对于某实体对存在关系后，本文将扩充标注语料的远监督的方法成功应用于新关系学习，提出了OpenDS(Open Distant Supervision)假设，对于实体对如果在句子sentence中存在关系，则语料中包含entity1和entity2的所有句子的某些关键词能在不同程度支持该关系。本文通过语料中包含实体对的所有句子对目标句子进行词语打分，最终挑选出描述关系的词语，组成最终的关系。实验表明，该方法比ZORE算法准确率高出9个百分点。　　4.构建了一套开放式中文关系抽取系统。为了实验比较，本文爬取了百度百科的词条数据，通过Infobox提取出了大量的三元组，存储在数据库中，形成了一个语义丰富的知识库。同时为了使以上算法应用落地，本文将以上三种方法集成在一个系统里，构建了一套开放式关系抽取系统。该系统能针对不同领域进行适应性学习，并能准确抽取出绝大多数关系。

其他文献

基于对等网的教学资源分发系统的研究

P2P是由若干互相对等的网络结点组成的一种网络结构，其中每个网络节点称为对等点，对等点消除了服务器和客户端间的角色差别，通过它们之间的信息直接交换完成计算和信息的共享.JX

学位

对等网资源分发系统教学资源

基于压缩感知的图像匹配追踪重构算法研究

压缩感知理论是近几年兴起来的一门新的信号采样理论，它打破了传统信号采样理论在采样频率方面的限制，引起了学术界的巨大轰动。传统信号采样理论包含了四个方面的内容:采样、

学位

图像匹配压缩感知重构算法稀疏表示观测矩阵

计算机辅助口语评估及诊断报告生成

随着国际化交流日益频繁，多语人才的需求越来越迫切，口语测试的普及率、公平性受到广泛关注。面对传统的口语测试所带来的时空受限、组织成本高、评估主观性强、反馈信息单一等

学位

计算机辅助语言学习口语测试数据融合诊断报告人工智能发音质量

局部加权学习的研究

本文是基于机器学习中的局部加权学习(Locally Weighted Learning，简称LWL)进行了深入的研究，这种学习方法既可用于回归问题(局部加权线性回归)，又可用于分类问题(局部加权朴素

学位

机器学习局部加权学习局部加权回归距离度量数据挖掘

J2EE Web层应用框架研究与应用

在传统的客户机/服务器(Client/Server，C/S)体系架构的企业应用系统开发中，数据一般存放在服务器上，应用程序一般存放在客户端计算机上。这样的系统虽然解决了数据共享等问题，但

学位

网络应用系统J2EE平台Web应用开发Struts框架

视频压缩中若干关键技术的研究

数据压缩技术是多媒体领域的重要研究方向之一。由于多媒体数据量非常巨大，海量多媒体数据的存储和传输成为多媒体应用所面临的主要问题。通过使用数据压缩技术，对多媒体数据进

学位

视频压缩离散余弦变换自适应块变换误差漂移视频编码

业务流监测中的数据包采样技术研究

网络流量监测对于网络流量计费、资源规划、流量控制和流量工程等至关重要。随着Internet的快速发展，带宽不断增加，高速链路对实时网络流量监测提出挑战。由于监测设备软硬件性

学位

网络流量采样方法处理能力业务流监测数据包处理

人体运动数据识别与实时标注的研究

随着人体运动捕获设备的发展和普及，以及深度摄像机在室内交互应用中的快速发展，人体运动识别与标注及相关技术在动画制作、电影特效以及交互娱乐等多项领域中发挥了越来越重要

学位

人体运动捕获设备数据处理识别技术实时标注

基于片上多核处理器的缓存一致性协议研究

随着半导体技术的发展，片上多核处理器以其高能效、高性能、低设计复杂度等诸多方面的优势已经成为微处理器发展的未来方向。缓存一致性协议是多核处理器中的一项核心技术。它

学位

微处理器片上多核处理器缓存一致性协议多目标无效请求

现场总线功能安全协议的研究与开发

随着智能仪表、网络技术和数字通信技术的发展，现场总线和工业以太网技术在工业现场得到了广泛的应用。同时面对国内工业生产的安全现状，基于总线技术的控制系统越来越多地被用

学位

现场总线马尔可夫功能安全协议仪表系统

基于主动学习和远监督的开放式关系抽取研究

与本文相关的学术论文