论文部分内容阅读
随着人工智能技术的快速发展,认知智能的重要性越来越凸显。特别地,知识图谱作为认知智能重要的技术手段,在搜索引擎、智能应用等场景日益展现其突破瓶颈的能力。然而,受限于知识覆盖率较低等问题,当前知识图谱难以广泛地在各个领域推广使用。互联网上存在丰富的非结构化文本,可以作为提升知识图谱覆盖率的重要知识来源。从非结构化文本抽取知识一直是自然语言处理研究中的难点和热点问题。已有的抽取方法或存在误差传播或包含人工特征选择的问题,使其具有一定的局限性,并且会为后期的知识图谱扩充带来许多额外的工作。基于以上背景,本论文主要针对知识图谱扩充的需求,研究以非结构化文本为对象的知识抽取方法,即从非结构化文本中抽取结构形式为{头实体,关系,尾实体}的知识三元组。传统的方法采用分步抽取的方式,面临着人工设计特征过于复杂、误差传播和信息冗余等问题。因此,综合考虑实体与关系的联合抽取方式成为新趋势,但其面对三元组构件重叠问题抽取效果仍不佳。为解决上述问题,本文的研究工作主要包括两部分:首先,本文提出了一种基于标记策略的多层语义结构的知识抽取方法。该方法是一种新的联合抽取方法,可协助解决知识构建的重叠问题。具体而言,首先采用一种特殊的三元组标记策略将知识抽取任务转化为多序列标注任务,即文本中每个属于实体的词可有多个标签,每个标签由三部分组成:实体在三元组中位置、三元组的关系类型以及词在实体中的位置。然后,通过提出的Multi GRU模型实现文本序列与多层标签序列之间的映射关系。其中,Multi GRU模型由编码层与解码层组成,编码层是双向门限循环神经网络(Bi GRU),解码层由多层GRU网络组成,且通过语义向量之间的差异度控制不同GRU层之间的差别。最后,提出了适用于语言特征的连续性、一致性与最近原则,可将标签序列转化为知识三元组。在NYT和KBP两组公开数据集上的对比实验表明该方法优于之前的大多数模型。其次,提出了一种基于预训练模型的自适应标签序列抽取模型以实现知识抽取的目标。该模型包括BERT编码结构以及双向GRU解码结构,与Multi GRU相比,其可基于句子语义特征自动生成每个句子中词语的标签数量,即针对存在知识三元组知识构件重叠的语句,可在模型中动态更新语句的解码行数。在远监督生成的NYT数据集以及存在大量重叠三元组的Web NLG数据集上,该模型F1值达到75.8%和80.1%。结果表明,相比于当前的知识抽取模型,本文提出的方法及模型可以更大程度的保证知识图谱扩充的适用性。