先验信息增强的机器阅读理解式桥梁检测文本信息抽取方法研究

来源 :重庆交通大学 | 被引量 : 0次 | 上传用户:hetongzhixia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度神经网络等人工智能技术快速发展,以命名实体识别和实体关系抽取为核心任务的文本信息抽取研究取得了长足进步。当前,基于深度神经网络的文本信息抽取研究成果的主要面向英文语境,但由于中文语料相对匮乏并且中英文文本间存在较大的差异,面向中文文本的信息抽取研究相对滞后,尤其是在许多特殊行业领域,相关中文文本信息抽取研究仍处于初步阶段。在桥梁工程领域,结构检测文本是其管养业务体系中最重要的资源之一,包含了桥梁基础属性、结构参数以及大量检测病害等关键信息。然而,目前桥梁检测文本数据大多仍采用文档链接方式存储在关系型数据库中,大量的细粒度文本信息并未充分利用,对后续的自动化、智能化管养决策支撑不足。因此,开展面向桥梁检测领域的文本关键信息抽取方法研究,实现该领域文本信息的高效抽取,为后续的领域知识图谱构建、知识问答等智能服务奠定基础,具有显著的研究意义。鉴于当前面向桥梁检测领域文本特性的文本信息抽取方法研究尚处在起步阶段的现状,本文开展了如下研究:
  (1)由于目前业界尚未形成一个面向桥梁检测领域的文本语料库,本文构建了具有较大规模和较高质量的桥梁检测领域文本外层和嵌套命名实体及其实体关系语料库,为后续研究打下了坚实的数据基础。在语料库的构建过程中,先对桥梁检测领域文本的特性进行了充分的分析,然后在领域专家指导下,建立了语料库的标注体系和规范,制定了语料库的标注方法和过程,最后通过评估了所构建语料库的可用性,形成了较大规模的语料库。
  (2)面向桥梁检测领域文本信息抽取中的命名实体识别任务,以桥梁检测领域外层和嵌套命名实体识别语料库为数据基础,提出先验信息增强的机器阅读理解式领域命名实体识别的方法,实现了对桥梁检测领域文本外层和嵌套实体的联合识别。该方法将包含先验信息的机器阅读理解问题同文本数据一同作为模型的输入,通过BERT模型提取上下文字符级特征,同时融入由大规模数据训练出来的辞典嵌入,并以BiLSTM编码字符级前后双方向特征,使用字符概率和实体跨度预测进行解码。实验结果表明,所提方法在桥梁检测领域文本外层和嵌套实体的识别中取得较好的F1值,外层和嵌套实体识别的F1值分别为98.50%和95.33%。
  (3)面向桥梁检测领域文本信息抽取中的实体关系抽取任务,以所构建的桥梁检测领域实体关系语料为基础,提出基于多轮机器阅读理解式问答的领域实体关系抽取方法,实现对桥梁检测领域文本实体关系的高效抽取。该方法以BERT模型为主干,以多轮问答的方式将实体关系抽取分为头部实体抽取、尾部实体及其关系抽取两个部分,使得模型可以逐渐获得下一轮问答所需要的实体。模型将包含先验信息的问答问题和文本数据一同作为输入,增强了模型的特征表达,并基于实体及其关系的跨度来解码关系分类,可抽取出输入文本中的所有实体和关系。实现结果表明,该方法优于其他方法,实体抽取阶段的精确率、召回率和F1值分别为94.59%、95.44%和95.01%,关系抽取阶段的精确率、召回率和F1值分别为64.90%、67.43和66.14%。
  综上所述,本文将自然语言处理技术应用到桥梁检测领域,通过充分分析桥梁检测领域文本的特性,构建了一个较为完善且具有较高标注质量的桥梁检测领域文本语料库。以构建的语料库为数据基础,针对桥梁检测领域信息抽取的两大任务,分别提出了先验信息增强的机器阅读理解式命名实体识别方法和基于多轮机器阅读理解式问答的实体关系抽取方法,取得了预期的效果。
其他文献
如今世界范围内的道路安全水平大幅度下降,交通事故导致死亡人数不断增加。交通事故造成的大量人员伤亡,在许多情况下,是由于不及时通知熟人或紧急情况服务导致的。为了解决这个问题,在本文中,我们使用人工智能,语音识别和Google的STT(语音到文本)技术开发了一个紧急呼救移动应用程序。我们的系统可以通过Google云服务有效地识别出受伤的语音,并自动将语音转换为文本。它还可以实时识别事故的位置,并立即向
轴承常存在于各种大型工业机械设备中,由于机械运转时恶劣的工业环境影响,轴承作为关键零部件经常会发生故障而导致整个大型机械设备产生故障。因此,含有强背景噪声的轴承微小故障问题需要进行详细的研究。在轴承运行的过程中,发生故障(腐蚀,磨损,断裂等)的轴承振动加速度信号往往伴随着强背景噪声,极易对轴承的振动信号特征分析产生影响。本文以轴承及其加速度信号作为研究对象,针对轴承加速度信号的噪声滤波,特征识别分
学位
为响应国家号召达到高质量发展目的须拉动消费促进国内经济大循环,缩小城乡差距建设城市群发展区。建设城市群发展区意味着有更多地区转变为城市以及有更多人口涌入城市,而这极大地增加了城市交通的压力,城市激增的客流量使得城市轨道交通应运而生。在城市轨道交通大力发展过程中,列车的自动驾驶控制、智能控制和时刻表优化等问题成了专家学者们的研究热点。合理的列车自动驾驶系统可以极大地缓解城市交通所面临的压力。  本文
学位
云存储作为云计算的延伸,不仅能满足用户随用随取数据的动态需求,而且还能有效降低本地存储资源开销,致使大规模用户选择将云存储作为数据存储方式。然而,数据由第三方管理,用户身份安全与否、云数据是否被合法用户访问以及云服务商是否按照规定管理、共享和使用存储数据等问题,使得云存储的访问可靠性遭受用户们的质疑。此外,云存储中较大规模的重复数据,导致云存储资源非必要消耗巨大。针对上述问题,本文基于用户属性对云
学位
为保证桥梁结构服役的安全性和耐久性,结合人工智能和大数据技术对桥梁结构进行结构健康监测已经成为桥梁智慧管养行之有效的技术手段。桥梁健康监测系统随桥梁服役年限的增长累积了海量的监测感知数据,此类数据反映了桥梁的结构健康状态,尽管在数据驱动范式下的结构健康监测技术已将取得了丰硕的研究成果,却还存在一定的不足:第一、由于桥梁结构的复杂性和服役环境的不确定性,在面向健康监测感知数据的时序性和多变量空间相关
学位
随着交通领域中交通基础设施数字化、智能化的发展,图像测量技术广泛应用于交通领域,在交通监控和车辆结构化上都有了较好的应用。而车辆荷载量作为交通监管中的重要指标之一,仍采用传统的固定站点测量,虽测量精度高,但面对车辆保有量的增加和交通道路网的丰富,目前的车辆荷载测量方法已经无法满足快速、高效和广覆盖的测量需求。因此,在面对大空间和大容量的交通环境时,如何利用高效、分布广的交通道路监控系统预警超载车辆
学位
可再生能源具有循环再生、资源分布广泛以及低成本、低污染的优点,其开发与应用已经成为现代社会能源供应体系中关键的战略部署,可再生能源的利用程度将决定一个国家的经济发展趋势。风能资源的分布广泛、总储存量巨大,并且开发利用成本较低,是最具开发前景的可再生能源之一。近几十年来,先进的科学技术和工业技术不断地促进着风力发电工业的蓬勃发展,风能的利用技术也与时俱进,得到了迅速的发展。风力发电领域产业的发展也是
学位
随着网络信息量的不断增多,个性化推荐系统可以帮助用户在繁杂的数据中快速发现自己想要的信息,能够针对对应系统中的主流商品对所有用户进行推荐,从而减轻信息过载现象。移动互联网赋予了用户随时随地访问互联网的能力,也使得用户能够在不同环境中通过手机APP与项目(如商户、音乐等)进行交互,用户交互时所处的环境信息被称为上下文信息。加入用户所产生的上下文信息的推荐系统以提高推荐过程中的准确度就显得十分必要,这
学位
目前考试仍然是我国选拔人才的主要手段,为了能保证考生的公平竞争,全国已上万所学校布设了监控设备,但其作用局限,只是简单地记录考生考试状态,提供监控人员回放、查看考试情况等基本功能,本质上与人工监考并无差别。因此本文以此为研究背景,分析了目前考生异常行为识别的研究现状,针对准确率不高,实时性差等问题,分别提出了基于混合局部卷积注意力的时序分段网络和基于时间移位融合与混合局部注意力网络进行考生异常行为
桥梁是交通系统的重要组成部分,桥梁设计质量决定着桥梁的服役时间。桥梁设计当前主要依靠设计师根据专业知识和设计经验选择设计实例与结构通用图,在此基础上进行修改或重新设计,形成桥梁设计方案。该方法周期较长、效率较低。同时,设计单位多年累积的大规模的桥梁设计图纸也没有得到有效利用。  本研究主要针对中小型混凝土梁桥,通过计算机视觉、人工智能等技术,研究相关算法,实现梁桥桥型总体布置图的自动识别与分析,为
学位