论文部分内容阅读
近年来,随着人工智能相关技术的兴起,自然语言处理领域的诸多方向也得到了长足的发展,并且相辅相成地进一步促进了人工智能相关技术的进步。在众多自然语言处理任务中,关系抽取任务因其广泛的应用场景而受到密切的关注。关系抽取任务旨在提取句子中两个实体之间的可能关系,是众多高阶自然语言处理任务的基础工作。同时,关系三元组「实体,关系,实体」是组成知识库的基本知识单元,因此关系抽取也是知识库补全的重要工具,是未来以知识驱动的人工智能的重要奠基工作。经过近几?年的长足发展,关系抽取任务的相关研究已经达到了较高水平。现代关系抽取研究的进一步发展通常面临一个核心问题和一个严峻挑战。核心问题是:在复杂关系抽取场景中,如何提高关系特征拟合的精确度。严峻挑战是:在关系规模快速扩张后,如何使用自动化构建的数据集进行有效的关系抽取训练。关系特征拟合的精确度是关系抽取任务中最为核心的部分。在神经网络技术被证明具有强大的特征拟合能力之后,一系列的神经网络模型被应用到关系抽取的任务中来,并取得了良好的效果。神经网络模型能够在语义层面上拟合关系特征,对于复杂的隐式关系表达更加敏感。同时,无需手工设计特征的优点使得基于神经网络的关系抽取模型既简单又高效。然而,现有的应用于关系抽取的神经网络技术还存在着诸多的不足,突出表现在复杂关系抽取任务中精确度不足和大规模关系抽取任务中效率低下。另一方面,现代关系抽取的相关应用通常需要面对海量的关系类型。例如在知识库补全应用中,大量的关系实例需要被分析和提取,因此需要海量的训练数据。显而易见,传统的手标数据没有办法满足大规模的关系提取需求,因此现代关系抽取任务寻求使用自动化构建的数据集进行关系抽取模型的训练,例如远程监督技术。然而,自动化标注的数据集通常包含了大量的噪声,例如错误标注的句子。因此,降低噪声的影响并保证关系抽取模型在高噪声数据集上的鲁棒性是大规模自动化关系抽取面临的严峻挑战。本文系统性地就以上关系抽取的核心问题及挑战进行了研究。其系统性体现在:(1)本文从精度、效率、鲁棒性和前沿探索四个方面展开研究,涵盖了关系抽取研究的各个方面;(2)针对核心问题关系特征拟合,本文从精度和效率两个角度展开了对于神经关系抽取模型的优化;(3)面对大规模自动化关系抽取任务中的降噪工作,本文为影响关系抽取效果的噪声建模,提出了包括词汇级别噪声、句子级别噪声、先验知识级别噪声和数据分布级别噪声的四层噪声分布模型。通过多级别多粒度的抗噪声优化来增强关系抽取模型的鲁棒性。同时,本文不仅为关系抽取中单个未解决的问题研究应对方案,而且注重不同问题之间的相互关联,使得不同的研究成果之间可以协同、复用、互补和加强。具体而言,本文开展了以下研究工作并作出了相应的贡献:1.提升关系特征拟合精度本文研究了多标签关系抽取中特征的分类聚合问题,以提升关系抽取模型在复杂的多标签场景下的特征拟合精度。首先,本文首次引入了胶囊网络作为共生关系特征聚合的基础模型。其次,通过集成注意力机制来强化关系特征。本文提出的基于注意力的胶囊网络在多标签的关系提取任务上取得了良好效果。2.优化关系特征拟合效率本文研究了诸多神经网络模型在关系抽取任务上的效率问题,特别注意到作为基础模型的卷积神经网络和循环神经网络在大规模关系抽取任务上的低效及过度使用。在此基础上,本文提出了基于句内问答的极简关系抽取模型,在关系抽取效率和精度上都大幅提升。3.增强关系抽取模型鲁棒性针对大规模自动关系抽取,本文研究了远程监督的诸多模型,并提出了新的数据噪声分布体系,最终实现多级别多粒度的抗噪声技术,极大地增强了基于远程监督的关系抽取的鲁棒性。4.探索关系抽取的前沿模型除了传统的关系抽取工作之外,本研究从关系抽取训练方式和评测方法入手,探索了关系抽取相关工作新的解决方案,并最终提出了基于对抗生成网络的半远程监督关系抽取框架和基于主动学习的无偏测评方法。