论文部分内容阅读
随着互联网技术的飞速发展,海量的互联网文本数据给实体关系抽取的研究引入了新一轮的机会与挑战。开放式的实体关系抽取不同于传统的实体关系抽取方法,不需要事先确定好关系类型体系也不需要标注好训练集,可以用来解决针对互联网文本的抽取任务。单机环境下的开放式实体关系抽取方法由于受到硬件环境的限制无法处理海量的互联网文本数据,本文借助于Hadoop分布式计算框架对单机环境下的算法进行了并行化,从而实现了针对海量互联网文本的处理。开放式实体关系抽取得到的关系指示词中包含了一些同义词近义词,通过对这些词进行聚类可以进一步抽象出关系类型,更好的描述实体关系。基于以上内容,本文的主要研究工作如下:1.提出了 一种新的中文无指导的开放式实体关系抽取方法UCOERE,UCOERE包括预处理、复句分解、关系三元组抽取、关系三元组过滤四个阶段。预处理完成了对输入语料的断句、分词、实体识别;在关系三元组抽取阶段,本文基于句法分析树提出一种叫做最短连通距离和的算法;在复句分解阶段,通过定义规则将复句分解为单句,极大的提升了句法分析器的性能;最后,在关系元组的过滤阶段,本文借鉴了全局排序和类型排序的方法对提取到的关系元组进行过滤,通过加入近义词合并提升了关系词典的质量。2.目前开放式实体关系抽取还没有一个统一的评判标准,本文参考了句子抽样的思想给出计算正确率、召回率和F1值的计算公式,实现了对UCOERE算法的评价。3.针对单机环境无法处理海量数据的问题本文基于Hadoop框架对UCOERE算法实现了并行化,提出了 PUCOERE算法。4.谱聚类算法具有良好的健壮性以及优秀的性能并且只需要提供相似度矩阵即可实现聚类,这对高度抽象的词语来说非常便利。本文利用谱聚类结合词语之间的相似度计算提出了一种新的关系类型自动构建方法。