论文部分内容阅读
知识图谱,是结构化的语义知识库,是让机器实现认知智能的基石。它通过图结构的形式来描述知识中的概念及其相互关系,其基本组成单位是“实体——关系——实体”三元组,它们通常隐藏在海量非结构化的文本当中。面对海量的数据,实体关系抽取技术能够实现自动地从非结构化的文本中抽取出符合实际需求的结构化数据,能够大量地减少人力的投入。因此,如何准确、全面地从文本中提取出知识三元组,是一个极具研究价值的问题。命名实体识别和关系抽取是两个不同的信息抽取任务,前者能够从非结构化的文本中提取出实体边界、实体类别的信息,而后者能够识别出不同实体对之间的语义关系信息。通过二者的工作特点容易发现,两个任务之间具有较强的关联性。因此,研究者试图将上述两个任务结合起来,充分利用其关联性,以期获取更好的工作效率和抽取效果。本文主要以实体关系联合抽取算法为研究主题,并结合当前自然语言处理领域的热点技术中暴露出的问题展开研究,其主要研究内容如下:第一,调研并复现了目前性能优良、覆盖场景广泛的热点技术——span级别的实体关系联合抽取,并指出现有方法中的不足:尽管此类模型能够考虑到相互嵌套的实体对关系抽取任务所带来的影响,规避了传统序列标注模式的弊病,但是缺乏句法特征的补充。从而导致模型抽取的关系与对应的实体类型组合相关,但是从句子语义的角度看实体之间却并不存在关系的现象。此外,现有研究表明,在多头注意力机制中一些注意力头倾向于关注相似的内容,并没有发挥出足够的语言建模能力。本文针对上述观察进行分析,并讨论其解决思路;第二,基于上述观察,本文提出一个基于BERT预训练语言模型,并结合句法特征融合的多头注意力机制以及关系子句局部注意机制的实体关系联合抽取算法。在进行span级别的命名实体识别任务基础上,按照不同的实体位置,对依存句法树进行剪枝,形成权重,让多头注意力模型中的一部分注意力头对其进行关注,然后对整个句子进行建模,从而在充分利用注意力头的同时,实现句法和语义特征的融合,同时讨论了不同的剪枝策略对模型产生的影响。此外,还提取出句子中的实体对及其之间的上下文,并施加了局部注意力机制,以实现局部语义的深入挖掘。该模型在公开数据集Conll04和SciERC上进行了实验,结果表明,相比于当前性能优异的baseline模型,在F-1指标上分别有着2.4%和3.3%的提升,获得了更佳的抽取效果;第三,利用上述研究成果,结合实际应用场景的特点,开发了一个基于中文影视新闻领域的信息抽取原型系统,该系统能够自动地从公开网络中定期增量采集影视新闻,然后对采集的新闻语料进行信息抽取,并支持以图谱的方式展示出知识抽取的结果,实现了一个从网络非结构化文本中抽取知识三元组的初步解决方案。