面向地铁设计领域的实体识别与实体关系抽取研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:llt009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着公共基础建设的不断完善,地铁逐渐成为日常出行工具的首要选择。地铁工程建设包括规划、设计、建设和试运行等多个环节,其中设计环节是保证工程建设质量的关键,也是确保地铁安全、经济、适用的重要前提。地铁设计规范是约束这一环节的重要文件,是我国经过多年经验沉淀和反复论证研究的成果。本文针对地铁设计规范文本进行信息抽取,主要包括实体识别和实体关系抽取两个过程,以加速该领域信息化、智能化的进程。具体研究内容如下:(1)针对地铁设计规范的语料库构建。目前针对地铁设计领域的实体识别和实体关系抽取研究处于起步阶段,现有研究尚未提出和发布该领域的信息抽取语料库。本文对规范文本进行分析,梳理该领域的实体类别和实体之间的关系类别,并总结规范文本的子语言特性。同时,采用团队标注的方式对部分规范文本进行标注,标注过程遵循“生成数据集-训练基准模型-分析预测错误-制定数据更新策略-更新数据集”的半人工闭环原则,构建了基于该规范的信息抽取语料库。(2)基于词汇增强技术和预训练机制的命名实体识别方法。首先基于序列标注方式表征文本的BiLSTM-CRF模型进行训练,该模型底层针对字进行编码,而词汇信息对于实体边界通常起着至关重要的作用。针对这一问题,本文设计了一个兼容词汇输入的动态框架SW-BiLSTM-CRF,具体包括词边界和词嵌入两类信息,对模型进行词汇增强。同时借助预训练机制,将大规模无监督语料的上下文特征迁移至模型训练过程,其中无监督训练包括两个阶段,通用领域预训练和80万条建筑领域规范文本的深度预训练,得到BcBERT模型,进而进行命名实体识别任务的微调,逐步提升模型性能,实验表明BcBERT-SW-BiLSTM-CRF模型能够有效提升F1值。(3)基于平均池化技术和注意力增强的实体关系抽取方法。首先基于BcBERT模型进行规范文本序列表征,借助平均池化操作得到文本中的实体信息,利用实体的相对位置丰富基于字的注意力信息,最后通过特定的输出结构得到多实体对之间的多关系预测结果。实验过程中设置多组对照实验,从预测结果和运行时间两个角度说明了方法的高效性。
其他文献
聚类算法作为数据处理的一种技术,发展迅速且被广泛应用在图像处理和计算机视觉中。目标检测作为这两个领域的交叉研究学科,同样也倍受关注。随着聚类算法的出现,研究者们开始尝试将其应用到检测中并取得了一些成果。但是,这些目标检测算法常常需要大量的先验条件,并且得到的实物目标也不够完整。针对该缺点,本文重点研究基于密度峰值聚类(DPC)的目标检测算法。为了更改好地将DPC算法应用于图像中,我们对其进行了一系
图像是信息传递的重要载体,在数字图像处理和计算机视觉领域都得到了大量的应用。逆光环境是比较常见的拍摄环境,因此由于拍摄环境造成的逆光图像占据了较大的比例。逆光图像暗区域(有意义区域)通常呈现可视质量低、细节表达不全面、色彩丢失严重等特点,背景区域通常呈现过度曝光、细节丢失、对比度低等特点,从而大大缩小了逆光图像的适用范围。目前专门针对逆光图像增强处理的研究较少,现有的增强算法往往会导致暗区域增强不
随着当今社会科技的迅速发展,人工智能、云计算等技术逐渐成熟,不计其数的网络服务使得数据规模与信息体量呈现出指数级别的增长,为了处理这些庞大的数据信息,推荐系统的应用必不可缺。推荐系统需要记录用户历史交互行为中的显式行为或隐式行为,发掘出用户的偏好特征,然后根据产品属性对不同的用户做出不同的推荐。本文对传统在线评论的推荐算法进行两大分类,基于document建模和基于review建模。其中对基于re
Android作为全球最受欢迎的移动平台,用户在感受其带来便利的同时,也将越来越多的个人数据存放在Android系统中,然而恶意应用的不断涌现,极大威胁着用户的信息安全。用户数据遭受威胁主要有以下两个方面的原因:一是由于Android系统存在着各种漏洞,恶意应用利用这些漏洞对用户设备进行攻击,从而窃取用户隐私。虽然现有Android系统的安全机制可以做到一定的防护,但这些安全机制依赖于系统底层的可
随着物联网技术的快速发展,物联网设备的数量呈指数级增长。因为物联网设备大多是资源受限的设备且很难运行较大的安全软件,所以物联网设备很容易遭受黑客的攻击导致数据泄露。因此物联网设备之间的安全访问和数据共享是一个重要的研究课题。传统的访问控制方案和数据共享方案大多是基于中心化的云服务器管理。在这些方案中,中心的云服务器很容易遭受单点故障问题。而且随着物联网设备数量的大量增长,中心的云服务器越来越难以管
医疗行业是与公民生命紧密相关的重要行业。部分医疗场景需要多机构协作及数据共享,在协作及数据共享过程中,机构之间不存在信任关系,导致协作和数据共享成本较高;医疗协作及数据共享过程存在大量人为因素干扰,进一步提高了医疗协作和数据共享的成本。此外,机构的数据中心多存在单点故障风险,容易因数据中心失效导致服务瘫痪。为解决以上问题,本文基于区块链和秘密共享技术,结合结核病防治这一具体医疗协作及数据共享场景,
随着科研人员的不断探索,研究的问题越来越复杂,目标检测只获取了场景中目标的类别信息和位置信息,而忽视了场景中各目标的内在联系。在实际生活中,需要处理的场景更为复杂,目标间的依赖更为紧密,如何高效解析复杂场景中各目标的空间布局及语义联系,并计算复杂场景间的相似性将变得越来越重要。为了解决上述问题,本文基于Faster R-CNN目标检测网络,提出了一种复杂场景相似性计算方法,并制作和标注了一个复杂场
随着移动智能设备的快速发展,越来越多的轨迹数据也随之产生,之后被第三方服务提供商收集,再存储到数据库中。对轨迹数据进行挖掘和分析可以解决诸多问题,但是轨迹数据中通常会包含移动对象的许多个人敏感隐私信息,如果对轨迹数据不加任何保护就直接使用,移动对象的个人敏感隐私信息将会被泄露出去,对移动对象本身造成巨大的损失,更甚者会带来人身威胁。因此,对轨迹数据隐私信息的保护吸引了许多国内外研究人员的关注。在现
视觉里程计是指通过相机采集到的帧序列来估计相机运动轨迹,用来实现相机自主定位的方法,这种方法被广泛应用于各种无人系统,是自主导航、避障、和目标跟踪的关键技术。视觉里程计从方法上可分为特征法和直接法:特征法通过匹配两帧之间的特征点建立几何模型求解位姿,这种求解方法的优点是精度高,但是对计算资源有一定的要求;直接法不需要建立特征点的匹配关系,直接使用光度误差模型优化位姿,计算速度较快,但是需要满足灰度
近几年,我国医疗信息化建设已具有一定规模,信息系统已基本覆盖各基层医疗机构的各职能领域。然而在基层医疗信息化发展过程中,存在各基层医疗系统相关联的业务无法协同、相同医疗数据无法共享的问题。基层医务人员想要从大量的医疗数据中获取到有价值的信息变得愈发困难,从而造成了基层医疗机构人力和财力的浪费。数据中台的实践意义在于,通过数据建模实现跨业务域的数据整合和数据能力沉淀,为解决基层医疗信息化建设中存在的