论文部分内容阅读
随着移动互联网时代的到来,互联网信息呈现指数级增长,其中文本信息占据了相当大的比例。实体识别和关系抽取能够帮助人们从海量的文本中抽取出实体和实体间的关系,是构建领域知识图谱、人机对话等自然语言处理领域任务的基础工作,具有重要的意义和价值。传统的流水线模型将实体识别和关系抽取当作两个独立的子任务,存在着错误传播、信息冗余以及没有建立两个子任务依赖的问题,这些问题都会影响最终抽取的效果。为了解决流水线模型中存在的缺陷,本文围绕实体和关系的联合抽取模型展开了研究,调研了国内外现有的实体识别、关系抽取以及实体和关系联合抽取模型,整理并分析了现有模型中存在的缺陷和不足,从基于参数共享和基于标注策略创新两个角度出发,提出了两种联合抽取模型。主要的工作内容如下:1、针对流水线模型忽略两个子任务内在依赖的问题,提出了一种融合子句信息的联合抽取模型。模型基于参数共享的方法,使用预训练语言模型BERT作为实体识别和关系抽取的共享编码层,来建立两个子任务之间的联系,并且通过将实体对编码信息与子句信息相结合,提高了关系分类的性能。模型在Co NLL04数据集上实体识别和关系抽取的F1值分别达到了89.2%和71.5%,证明了本文提出模型的有效性。2、针对信息冗余问题,构建了基于分解标注策略的联合抽取模型,将实体和关系联合抽取任务转化为头实体识别、尾实体和关系抽取两个子任务,并且在训练阶段引入偏置权重缓解了标注策略带来的类别不平衡问题,在预测阶段基于句子语义关系对模型结果进行修正,提高了模型的性能。模型在NYT数据集上F1值达到了88.6%,相较于其它联合抽取模型取得了最好的性能。3、将本文提出的两种联合抽取模型应用于面向音乐领域的实体和关系抽取系统中,实现了将音乐文本转化为结构化的三元组,为构建音乐领域知识图谱提供数据支持。