基于整体搜索的英文命名实体识别技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:kangj04
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(Named Entity Recognition,NER)是自然语言处理工作中的一项基础任务,其目标是在待处理的文本中识别出具有特定意义的单词或者短语。命名实体识别是许多下游任务的关键前置任务,如关系抽取、共指消解、文本分类等任务,命名实体的质量会极大影响这些任务的效果。当前流行的命名实体识别模型主要是基于序列标注的深度学习模型,这些模型受限于马尔科夫假设,导致神经网络仅学习到标签之间的依赖,无法充分发挥模型学习完整文本序列的能力,同时序列标注结果的容错率较低,序列标签也难以与下游任务联合训练。针对以上问题,本文提出第一个创新点:借鉴计算机视觉领域中一阶段目标检测模型的相关知识,充分利用实体的连续性,提出了一种新的命名实体识别方法:整体搜索法。整体搜索法把实体的所有构成单词当作一个边界共享、类型相同的整体,将命名实体识别任务解耦为两个子任务:实体词识别任务和边界搜索任务。实体词识别任务旨在识别出待处理文本中的实体词,边界搜索任务负责为所有实体词搜索实体边界。基于整体搜索的识别方式,本文设计了实体搜索模型(Entity Search Model,ESM)。本文还提出了另外两个创新点:提出了一种局部引导的多头注意力机制(LocalGuided Multi-Head-Attention,LGA),以及一种拥有多尺度感受野的卷积神经网络结构,边界卷积块(Boundary Convolution Block,BCB),分别用于构建ESM模型的实体词识别模块和边界搜索模块并学习两个子任务。两个模块共享部分模型参数,通过多任务学习的方法进行训练。为了验证本文提出的整体搜索法和ESM模型的有效性,本研究在公开的Co NLL2003英文数据集和Onto Note5.0英文数据集上进行了详细的实验与分析,并通过和现有工作进行对比验证了整体搜索法的可行性和ESM模型的优越性,同时还在中文基准数据集Resume和Onto Note4.0上进行了实验,验证了ESM模型的迁移性。本文通过对实验结果进行分析,还发现了ESM模型的输出特征中蕴含了单词和实体之间的依赖和联系,可以为下游任务提供更多潜在的信息。
其他文献
电网是国家的基石,电网的安全稳定运行对推动社会发展和保障国家安全具有重要意义。随着社会经济的发展,数字化社会对电网系统的可靠性提出了更严格的要求,我国传统电网向智能化变革的需求越来越迫切。为了及时发现电网运行异常与电力设备故障,需要实时监测电网各环节状态数据,智能电网状态监测系统相关研究已经成为智能电网建设中的热点研究问题。本文在智能电网的工业应用场景下,设计并实现了基于边云协同的状态监测系统。该
当今全球化竞争的时代背景下,科技创新已经成为各国综合国力竞争的主要方式。大学科技园作为科研创新、人才、市场的结合点,是促进科技、经济、教育发展的重要平台,其建设与发展一直备受国家重视。而目前对于大学科技园建筑规划层面的研究不够深入,对其创新空间的专项研究更加匮乏。良好的创新空间环境,可以反过来引导、再塑人的行为,营造创新文化氛围。因此,有必要对大学科技园的创新空间进行系统性、针对性的研究。基于上述
研究背景动静脉内瘘(Arteriovenous Fistula,AVF)通畅是血液透析患者顺利进行透析的必备条件,而内膜增生狭窄导致的血管通路功能障碍是患者死亡率增加的重要因素,目前临床上缺乏有效的防治手段。因此,如何防治AVF内膜增生狭窄并提高通畅率是近年来血液净化领域的热点及难点。在基础研究领域,有关AVF内膜增生机制的研究日益增多,但尚未有防治AVF狭窄的科学、有效的手段。究其原因在于缺乏特
呼吸功能衰竭是导致颈段脊髓损伤(Cervical Spinal Cord Injury,CSCI)患者死亡的主要原因。然而,传统的呼吸功能检测手段操作复杂,且费用不菲,给医生和患者带来了极大的负担。咳嗽作为呼吸系统的常见症状,可为判断患者的呼吸功能强弱提供重要信息。因此,基于咳嗽音评价CSCI患者的呼吸功能具有重要的社会价值和应用前景。本文的目标是基于咳嗽音判断CSCI患者呼吸功能的强弱,进而开发
高锰无磁钢具有无磁性,良好的力学性能,广泛应用于电力电气、轨道交通以及高新技术等领域。工业上一般通过精密铸造法生产,但铸造工艺很难满足高精度、大批量复杂零件的生产要求。本文通过粉末冶金法,采用Fe-18Mn-0.6C预合金粉末制备高锰无磁钢材料,通过添加不同成分的C-x Fe2O3活化剂提高材料的力学性能并研究其助烧机理;通过添加不同成分的铜粉提高材料的密度以及研究铜的致密化机理;同时利用高锰无磁
非球形粒子由于几何形状的不对称性使得其范德华力、电荷分布和曲率也呈现低对称性,从而呈现出优异的理化性能,在光子晶体、特殊涂层、生物医学和新材料的构造等领域具有巨大的应用价值。本文通过种子分散聚合反应精确控制合成不同形貌的凹面非球形粒子,提出了凹面非球形粒子的形成机理,并研究了凹面非球形粒子的自组装行为。(1)一步分散聚合法制备球形聚苯乙烯粒子。分散聚合分两个阶段,通过调整第一阶段和第二阶段苯乙烯(
联用多种具有协同效应的化疗药物是克服肿瘤耐药性、降低化疗毒副作用的重要方式,药物联用效果与实际作用于靶点的药物剂量比例密切相关。为最大程度发挥协同效果,应用于协同化疗的递送载体需要以稳定可控的载药比例递送药物,并于靶点位置以相同的比例释放药物。目前,纳米载体在药物递送的靶向性、响应性等方面的研究已较为深入,但少有能实现以稳定且可控的比例释放药物的案例,其中载体对具有不同理化性质的药物的“差异束缚力
质子交换膜燃料电池(PEMFC)具有能量转换效率高、零污染、能在低温下快速启动等优点,能够广泛地应用于交通运输、便捷式电源、发电站、航空/航天以及水下潜艇等军用和民用领域,因此近年来越来越受到各国政府及研究团队的关注。在各国政府的积极推动下,PEMFC得到了很大的发展,但要真正实现PEMFC的大规模商业化目前尚面临成本高及耐久性不足的挑战。目前PEMFC高成本的主要原因是需要使用价格昂贵的贵金属催
量子点独特的光电性能优异性在生物成像、医学治疗、传感、电池、显示与照明等领域有相关应用。量子点极易因温度升高而发生荧光淬灭现象,目前主要应用在小功率场合。量子点热稳定性差的难题制约了量子点大功率应用的发展。针对上述问题,本文设计了新型液态量子点循环冷却光转化器用于大功率激光照明。通过量子点外部压力驱动,内部相变驱动两种流动循环方式,对大功率激光激发状态下液态量子点进行温度控制,实现了液态量子点在大
随着对无线通信系统的深入研究,对射频前端设备的要来越高,小型化与集成化是其发展的趋势。滤波天线与双工天线的设计可以使设备的集成化,也能降低射频前端系统的损耗。本文所研究的滤波天线与双工天线采用交叉耦合的方法实现高频率选择性以及隔离度。同时,对天线采用对称激励的方式提高其交叉极化性能。本文的工作可以概况为以下三个方面:1、提出了一种基于源-天线交叉耦合的滤波天线。两个微带谐振器通过缝隙耦合构成二阶带