基于多阶段的英文嵌套命名实体识别技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:woshizzh1713
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(Named Entity Recognition,NER)是自然语言处理(Natural Language Processing,NLP)上游的一项基础且重要的任务,其对下游的许多任务如文本理解、问答、信息检索等的效果会产生很大的影响。在许多如生物医学、新闻领域的数据集,有相当一部分的实体存在嵌套的情况,如何有效地处理嵌套结构对实体识别效果会产生很大影响,这也是当下研究的热点。当前主流的嵌套命名实体识别解决方案多是基于两阶段的策略,即获取实体的候选span(文本中连续的子串)和判断候选span的实体类型两个阶段。这些两阶段的模型在训练过程中,对实体边界信息和实体类别信息利用不充分,导致候选span质量较低,存在计算消耗大和准确率低的问题。针对上述问题,本文提出了一个三阶段的识别方案:将嵌套命名实体识别任务解耦成实体边界位置识别、span筛选和实体类别识别三个阶段子任务,顺序经过上述三个阶段即可完成实体的抽取。基于三阶段的识别策略,本文设计了边界匹配模型(Boundary Matching Model,BMM)。模型包含四个模块,与策略的三个阶段对应。实体边界位置识别阶段对应模型的实体头尾识别和实体边界识别两个模块,span筛选阶段对应实体边界匹配模块,实体类别识别阶段对应实体类别识别模块,四个模块共享编码层进行多任务联合训练。模型用一个多尺度卷积网络对文本序列的单词边界进行了建模,用一个边界相对位置编码增强了候选span表示。本文还提出一种实体边界相关的span负采样方式来优化训练过程。为了评估提出的三阶段识别策略和边界匹配模型的效果,本研究在开源的GENIA、Germ Eval2014、Co NLL2003、JNLPBA四个数据集上进行了详尽的实验和分析。通过与现有的主流模型进行对比验证了方法的有效性与优越性。
其他文献
飞机货舱火灾烟雾探测器是保障飞机飞行安全的重要设备之一,而现存烟雾探测器因受到货舱环境中杂散光干扰,以及水汽和灰尘等气溶胶的影响,时常出现误报,严重影响飞机正常运行。为了降低飞机货舱火警误报率,提出一种基于数字锁相技术的双波长火灾烟雾探测方法。首先,对光电式烟雾探测器原理及易误报原因进行分析,基于粒子光散射理论和粒度分析,引入双波长发射式探测方法,并利用数字锁相技术抗干扰、去噪的特点,提出基于数字
学位
近年来,增材制造技术越来越受到各国政府、制造商和科研人员的重视,因为其独特的成形方法可以在不需要模具等额外工具的情况下通过层层堆积的方式制造出复杂结构的构件,在结构减重和结构一体化方面有着明显优势。激光选区熔化(Selective Laser Melting,SLM)成形合金细化的晶粒组织使其拥有优异的拉伸性能,但由于存在孔隙等缺陷,SLM合金的疲劳性能较差。对缺陷的三维特征进行表征分析并研究缺陷
学位
时序知识图谱通常包含不同时间点实体及其关系所组成的事实。由于知识图谱的不完整性,知识图谱补全任务受到越来越多的关注。知识图谱补全的目标为根据知识图谱中已有事实来推断出新的事实,使得知识图谱更加完整。知识图谱补全可以辅助完成问答、推荐等下游任务,因此具有重要的研究意义。知识图谱嵌入表示方法已被证明在知识图谱补全任务上是十分有效的。早期基于知识图谱嵌入的补全方法主要针对静态知识图谱进行补全而忽略了知识
学位
国产飞机陆续服役的同时,我国也逐步开始实现对自研飞机的自主运营,由于运行环境、人为操作等因素的影响,飞机在运行时可能出现设计研制阶段未出现过的特定失效,民机运行事件的风险评估与分析逐渐成为一项重要的研究工作。目前,基于数据的定量风险评估方法以实际运行失效数据作为输入,并借助相关风险分析模型得到关于事件的精确量化信息,被广泛应用于飞机的运行风险评估中。由于航空评估活动中存在大量不确定性,不确定性的影
学位
氮氧化物(NOx)是形成细颗粒物(PM2.5)和近地面臭氧(O3)污染的重要前体物,对人体健康和大气环境具有严重的危害性。柴油车尾气排放是大气NOx的重要来源之一。NOx储存还原(NOx storage/reduction,NSR)和氨选择性还原(NH3-SCR)是目前净化柴油车尾气NOx的主流技术。将尾气中的NO氧化为NO2是NSR和NH3-SCR反应过程中的关键步骤,目前主要通过柴油尾气后处理
学位
现代土木工程建筑中,传统混凝土由于抗压强度高,搅拌与浇筑施工工艺简单、原材料分布广泛,且价格便宜,具有经济性等优点得到广泛应用。然而,随着桥梁、机场等基础设施的迅速发展,混凝土构件受地震、车辆荷载及冲击荷载等作用出现拉压疲劳、力学性能退化等问题,降低其工程使用寿命及安全性能。高延性混凝土(ECC)是一种新型混凝土材料,在延性、韧性和强度等方面具有良好的性能,可弥补传统混凝土的缺陷。针对ECC材料开
学位
民航客机一直以来被视为实施恐怖袭击的对象,最常见的事件为劫炸机,爆炸物在飞机内部爆炸会对机身结构和乘客造成危害,甚至导致飞机解体。适航规章提出了民机最小风险炸弹位置的设计要求,一种建议的符合性方法为使用炸弹包容装置。现有的以金属材料为主的抗爆容器因其庞大的体积和质量,将会为民机带来巨大的经济负担。研究质量轻、体积小的抗爆容器具有重要的意义。本文针对小当量简易爆炸装置设计了芳纶和超高分子量聚乙烯纤维
学位
图神经网络已被广泛用于处理分析非结构化数据,它可以从图中提取重要信息并进行准确预测,其在社区检测和药物研究等领域得到广泛应用。但为了得到一个优秀的图神经网络模型,其设计过程需专业的领域知识和丰富的设计经验。因此,基于图神经网络的神经架构搜索方法被陆续提出,但现有方法通常只以模型准确率为单一目标,而搜索出的参数量庞大的模型难以部署在手机等计算资源有限的设备中。因此,本文利用多目标进化算法的多目标处理
学位
氨选择性催化还原(NH3-SCR)是柴油车尾气氮氧化物(NOx)减排的关键技术之一。铜离子交换的菱沸石小孔分子筛(Cu-SSZ-13)具有优异的催化活性、N2选择性和水热稳定性,是目前主流的NH3-SCR催化剂,被广泛应用于国VI、欧VI柴油车尾气NOx净化。在柴油车实际工况条件下,源于润滑油和生物燃料的磷元素(P)排放至尾气中,成为尾气不可避免的成分之一。长期暴露于含P尾气会导致Cu-SSZ-1
学位
针对抽油泵筒在工程上遇到的泵筒腐蚀和磨损严重等关键问题,迫切需要开展抽油泵筒材料45钢表面的新防护技术研究。目前制约抽油泵筒材料表面激光增材的难点是成形质量和性能调控。围绕该难点,论文开展了如下的研究:首先,开展了激光增材制造高熵合金涂层性能影响规律的研究,揭示了高熵合金涂层裂纹等缺陷的形成机理,探明了激光功率和激光扫描速度变化对激光增材制造高熵合金涂层裂纹等缺陷的影响规律,为进一步提升高熵合金涂
学位