基于主动学习和远监督的开放式关系抽取研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:arsonloupeen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网,特别是WEB2.0的快速发展,网络数据爆炸式增长。每天都有大量UGC(User Generated Content)网络内容产生和发布,怎样从浩大的网络数据中提取出有价值的信息,为进一步分析和决策提供依据,已经成为亟待解决的问题。开放式关系抽取技术,不限定关系类型,不受语料限制,能适用于大规模网络数据,具有领域自适应、泛化能力强等特点。在开放式中文关系抽取领域,主要存在两大问题,一是标注语料少;另一个是新的关系难以学习。本文对这两方面的问题进行了细致的分析和研究,创新性地将开放关系抽取问题划分成两个阶段,第一阶段采用学习方法确定是否存在关系,第二阶段确定具体的关系,主要的贡献点和成果如下:  1.提出了主动学习的算法框架。为了解决标注语料少的问题,在第一阶段采用主动学习的思路,自适应不同领域语料,利用算法和人工结合的方式构造健壮模型。具体地首先选取一批种子语料,构造初始分类模型,然后采用异质模型融合样本挑选算法对未标记样本挑选,挑选出最富有信息量的样本供人工标注,然后再加入到种子语料中,如此迭代使得初始模型不断精确且能适应该语料,从而使模型准确率不断提高。  2.提出了异质模型融合的样本挑选方法。为了挑选出最富有信息量的样本,达到标注一个,影响一批样本的效果。本文尝试将不同结构类型的分类模型应用到样本上,提出了异质模型融合的样本挑选方法。将线性模型(比如逻辑回归)、树模型(比如XGBOOST)、核模型(比如SVM)和深度模型(比如多层感知机)等结合在一起,融合不同模型的优点,形成一个强大的统一模型,从而挑选出最重要的样本供人工标注,最大程度减少标注成本。在1000个小规模样本集上的实验表明,该方法选择的10个样本的准确率和随机挑选60个样本的准确率相当,说明选择的样本具有较强的代表性,能达到标注一个,影响一批的效果,极大的释放了人工标注成本。  3.基于远监督的新关系学习方法。确定目标句子对于某实体对存在关系后,本文将扩充标注语料的远监督的方法成功应用于新关系学习,提出了OpenDS(Open Distant Supervision)假设,对于实体对如果在句子sentence中存在关系,则语料中包含entity1和entity2的所有句子的某些关键词能在不同程度支持该关系。本文通过语料中包含实体对的所有句子对目标句子进行词语打分,最终挑选出描述关系的词语,组成最终的关系。实验表明,该方法比ZORE算法准确率高出9个百分点。  4.构建了一套开放式中文关系抽取系统。为了实验比较,本文爬取了百度百科的词条数据,通过Infobox提取出了大量的三元组,存储在数据库中,形成了一个语义丰富的知识库。同时为了使以上算法应用落地,本文将以上三种方法集成在一个系统里,构建了一套开放式关系抽取系统。该系统能针对不同领域进行适应性学习,并能准确抽取出绝大多数关系。
其他文献
P2P是由若干互相对等的网络结点组成的一种网络结构,其中每个网络节点称为对等点,对等点消除了服务器和客户端间的角色差别,通过它们之间的信息直接交换完成计算和信息的共享.JX
压缩感知理论是近几年兴起来的一门新的信号采样理论,它打破了传统信号采样理论在采样频率方面的限制,引起了学术界的巨大轰动。传统信号采样理论包含了四个方面的内容:采样、
随着国际化交流日益频繁,多语人才的需求越来越迫切,口语测试的普及率、公平性受到广泛关注。面对传统的口语测试所带来的时空受限、组织成本高、评估主观性强、反馈信息单一等
本文是基于机器学习中的局部加权学习(Locally Weighted Learning,简称LWL)进行了深入的研究,这种学习方法既可用于回归问题(局部加权线性回归),又可用于分类问题(局部加权朴素
在传统的客户机/服务器(Client/Server,C/S)体系架构的企业应用系统开发中,数据一般存放在服务器上,应用程序一般存放在客户端计算机上。这样的系统虽然解决了数据共享等问题,但
数据压缩技术是多媒体领域的重要研究方向之一。由于多媒体数据量非常巨大,海量多媒体数据的存储和传输成为多媒体应用所面临的主要问题。通过使用数据压缩技术,对多媒体数据进
网络流量监测对于网络流量计费、资源规划、流量控制和流量工程等至关重要。随着Internet的快速发展,带宽不断增加,高速链路对实时网络流量监测提出挑战。由于监测设备软硬件性
随着人体运动捕获设备的发展和普及,以及深度摄像机在室内交互应用中的快速发展,人体运动识别与标注及相关技术在动画制作、电影特效以及交互娱乐等多项领域中发挥了越来越重要
随着半导体技术的发展,片上多核处理器以其高能效、高性能、低设计复杂度等诸多方面的优势已经成为微处理器发展的未来方向。缓存一致性协议是多核处理器中的一项核心技术。它
随着智能仪表、网络技术和数字通信技术的发展,现场总线和工业以太网技术在工业现场得到了广泛的应用。同时面对国内工业生产的安全现状,基于总线技术的控制系统越来越多地被用