论文部分内容阅读
随着深度神经网络等人工智能技术快速发展,以命名实体识别和实体关系抽取为核心任务的文本信息抽取研究取得了长足进步。当前,基于深度神经网络的文本信息抽取研究成果的主要面向英文语境,但由于中文语料相对匮乏并且中英文文本间存在较大的差异,面向中文文本的信息抽取研究相对滞后,尤其是在许多特殊行业领域,相关中文文本信息抽取研究仍处于初步阶段。在桥梁工程领域,结构检测文本是其管养业务体系中最重要的资源之一,包含了桥梁基础属性、结构参数以及大量检测病害等关键信息。然而,目前桥梁检测文本数据大多仍采用文档链接方式存储在关系型数据库中,大量的细粒度文本信息并未充分利用,对后续的自动化、智能化管养决策支撑不足。因此,开展面向桥梁检测领域的文本关键信息抽取方法研究,实现该领域文本信息的高效抽取,为后续的领域知识图谱构建、知识问答等智能服务奠定基础,具有显著的研究意义。鉴于当前面向桥梁检测领域文本特性的文本信息抽取方法研究尚处在起步阶段的现状,本文开展了如下研究:
(1)由于目前业界尚未形成一个面向桥梁检测领域的文本语料库,本文构建了具有较大规模和较高质量的桥梁检测领域文本外层和嵌套命名实体及其实体关系语料库,为后续研究打下了坚实的数据基础。在语料库的构建过程中,先对桥梁检测领域文本的特性进行了充分的分析,然后在领域专家指导下,建立了语料库的标注体系和规范,制定了语料库的标注方法和过程,最后通过评估了所构建语料库的可用性,形成了较大规模的语料库。
(2)面向桥梁检测领域文本信息抽取中的命名实体识别任务,以桥梁检测领域外层和嵌套命名实体识别语料库为数据基础,提出先验信息增强的机器阅读理解式领域命名实体识别的方法,实现了对桥梁检测领域文本外层和嵌套实体的联合识别。该方法将包含先验信息的机器阅读理解问题同文本数据一同作为模型的输入,通过BERT模型提取上下文字符级特征,同时融入由大规模数据训练出来的辞典嵌入,并以BiLSTM编码字符级前后双方向特征,使用字符概率和实体跨度预测进行解码。实验结果表明,所提方法在桥梁检测领域文本外层和嵌套实体的识别中取得较好的F1值,外层和嵌套实体识别的F1值分别为98.50%和95.33%。
(3)面向桥梁检测领域文本信息抽取中的实体关系抽取任务,以所构建的桥梁检测领域实体关系语料为基础,提出基于多轮机器阅读理解式问答的领域实体关系抽取方法,实现对桥梁检测领域文本实体关系的高效抽取。该方法以BERT模型为主干,以多轮问答的方式将实体关系抽取分为头部实体抽取、尾部实体及其关系抽取两个部分,使得模型可以逐渐获得下一轮问答所需要的实体。模型将包含先验信息的问答问题和文本数据一同作为输入,增强了模型的特征表达,并基于实体及其关系的跨度来解码关系分类,可抽取出输入文本中的所有实体和关系。实现结果表明,该方法优于其他方法,实体抽取阶段的精确率、召回率和F1值分别为94.59%、95.44%和95.01%,关系抽取阶段的精确率、召回率和F1值分别为64.90%、67.43和66.14%。
综上所述,本文将自然语言处理技术应用到桥梁检测领域,通过充分分析桥梁检测领域文本的特性,构建了一个较为完善且具有较高标注质量的桥梁检测领域文本语料库。以构建的语料库为数据基础,针对桥梁检测领域信息抽取的两大任务,分别提出了先验信息增强的机器阅读理解式命名实体识别方法和基于多轮机器阅读理解式问答的实体关系抽取方法,取得了预期的效果。
(1)由于目前业界尚未形成一个面向桥梁检测领域的文本语料库,本文构建了具有较大规模和较高质量的桥梁检测领域文本外层和嵌套命名实体及其实体关系语料库,为后续研究打下了坚实的数据基础。在语料库的构建过程中,先对桥梁检测领域文本的特性进行了充分的分析,然后在领域专家指导下,建立了语料库的标注体系和规范,制定了语料库的标注方法和过程,最后通过评估了所构建语料库的可用性,形成了较大规模的语料库。
(2)面向桥梁检测领域文本信息抽取中的命名实体识别任务,以桥梁检测领域外层和嵌套命名实体识别语料库为数据基础,提出先验信息增强的机器阅读理解式领域命名实体识别的方法,实现了对桥梁检测领域文本外层和嵌套实体的联合识别。该方法将包含先验信息的机器阅读理解问题同文本数据一同作为模型的输入,通过BERT模型提取上下文字符级特征,同时融入由大规模数据训练出来的辞典嵌入,并以BiLSTM编码字符级前后双方向特征,使用字符概率和实体跨度预测进行解码。实验结果表明,所提方法在桥梁检测领域文本外层和嵌套实体的识别中取得较好的F1值,外层和嵌套实体识别的F1值分别为98.50%和95.33%。
(3)面向桥梁检测领域文本信息抽取中的实体关系抽取任务,以所构建的桥梁检测领域实体关系语料为基础,提出基于多轮机器阅读理解式问答的领域实体关系抽取方法,实现对桥梁检测领域文本实体关系的高效抽取。该方法以BERT模型为主干,以多轮问答的方式将实体关系抽取分为头部实体抽取、尾部实体及其关系抽取两个部分,使得模型可以逐渐获得下一轮问答所需要的实体。模型将包含先验信息的问答问题和文本数据一同作为输入,增强了模型的特征表达,并基于实体及其关系的跨度来解码关系分类,可抽取出输入文本中的所有实体和关系。实现结果表明,该方法优于其他方法,实体抽取阶段的精确率、召回率和F1值分别为94.59%、95.44%和95.01%,关系抽取阶段的精确率、召回率和F1值分别为64.90%、67.43和66.14%。
综上所述,本文将自然语言处理技术应用到桥梁检测领域,通过充分分析桥梁检测领域文本的特性,构建了一个较为完善且具有较高标注质量的桥梁检测领域文本语料库。以构建的语料库为数据基础,针对桥梁检测领域信息抽取的两大任务,分别提出了先验信息增强的机器阅读理解式命名实体识别方法和基于多轮机器阅读理解式问答的实体关系抽取方法,取得了预期的效果。