论文部分内容阅读
随着互联网,特别是WEB2.0的快速发展,网络数据爆炸式增长。每天都有大量UGC(User Generated Content)网络内容产生和发布,怎样从浩大的网络数据中提取出有价值的信息,为进一步分析和决策提供依据,已经成为亟待解决的问题。开放式关系抽取技术,不限定关系类型,不受语料限制,能适用于大规模网络数据,具有领域自适应、泛化能力强等特点。在开放式中文关系抽取领域,主要存在两大问题,一是标注语料少;另一个是新的关系难以学习。本文对这两方面的问题进行了细致的分析和研究,创新性地将开放关系抽取问题划分成两个阶段,第一阶段采用学习方法确定是否存在关系,第二阶段确定具体的关系,主要的贡献点和成果如下: 1.提出了主动学习的算法框架。为了解决标注语料少的问题,在第一阶段采用主动学习的思路,自适应不同领域语料,利用算法和人工结合的方式构造健壮模型。具体地首先选取一批种子语料,构造初始分类模型,然后采用异质模型融合样本挑选算法对未标记样本挑选,挑选出最富有信息量的样本供人工标注,然后再加入到种子语料中,如此迭代使得初始模型不断精确且能适应该语料,从而使模型准确率不断提高。 2.提出了异质模型融合的样本挑选方法。为了挑选出最富有信息量的样本,达到标注一个,影响一批样本的效果。本文尝试将不同结构类型的分类模型应用到样本上,提出了异质模型融合的样本挑选方法。将线性模型(比如逻辑回归)、树模型(比如XGBOOST)、核模型(比如SVM)和深度模型(比如多层感知机)等结合在一起,融合不同模型的优点,形成一个强大的统一模型,从而挑选出最重要的样本供人工标注,最大程度减少标注成本。在1000个小规模样本集上的实验表明,该方法选择的10个样本的准确率和随机挑选60个样本的准确率相当,说明选择的样本具有较强的代表性,能达到标注一个,影响一批的效果,极大的释放了人工标注成本。 3.基于远监督的新关系学习方法。确定目标句子对于某实体对存在关系后,本文将扩充标注语料的远监督的方法成功应用于新关系学习,提出了OpenDS(Open Distant Supervision)假设,对于实体对如果在句子sentence中存在关系,则语料中包含entity1和entity2的所有句子的某些关键词能在不同程度支持该关系。本文通过语料中包含实体对的所有句子对目标句子进行词语打分,最终挑选出描述关系的词语,组成最终的关系。实验表明,该方法比ZORE算法准确率高出9个百分点。 4.构建了一套开放式中文关系抽取系统。为了实验比较,本文爬取了百度百科的词条数据,通过Infobox提取出了大量的三元组,存储在数据库中,形成了一个语义丰富的知识库。同时为了使以上算法应用落地,本文将以上三种方法集成在一个系统里,构建了一套开放式关系抽取系统。该系统能针对不同领域进行适应性学习,并能准确抽取出绝大多数关系。