面向低资源场景的命名实体识别数据增强方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:fjms001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别作为自然语言处理领域的基础任务,被广泛应用于知识图谱构建、信息抽取和对话理解等下游任务。近年来,随着深度学习的迅速发展,基于神经网络模型的命名实体识别方法取得了长足的发展。然而,深度学习方法往往依赖于大量标注数据,且人工标注费时费力,导致其在低资源场景中的表现受限。在实际应用中,命名实体识别任务在生物医学、材料科学等专业领域存在严重的标注数据匮乏问题。为了解决上述问题,现有的一些研究工作采用迁移学习的方法从富资源领域迁移知识,但富资源领域的命名实体识别语料相对有限,且不同领域之间存在差异,因此很难保证知识迁移的效果。另一部分研究者采用数据增强的方法缓解标注数据稀缺带来的影响,但数据增强的研究工作大多集中于句子级别的任务,受词级别细粒度标签的限制,目前针对低资源命名实体识别任务的研究相对较少。本文提出了一种面向低资源命名实体识别任务的词级别数据增强框架,其包含数据增强和数据去噪两部分。本文的创新点以及主要贡献总结如下:(1)提出了一种基于预训练语言模型的标签感知命名实体识别数据增强方法。本文利用预训练语言模型所蕴含的丰富语言学知识对句子中的实体单词进行替换,用于扩充训练数据。为了提升预测单词和标签的一致性,本文预先使用附加标签信息的标注文本对预训练语言模型进行微调,以获取更加匹配原始标签的预测单词序列。实验结果显示本文提出的方法能够有效地缓解低资源命名实体识别任务标注数据稀缺的问题。(2)提出了一种基于课程学习策略的合成数据去噪方法。为了改善合成数据的质量,本文利用预训练的命名实体识别模型,获取合成数据在真实标签上的预测概率,计算置信度评分,以衡量合成数据的质量和学习难易程度。本文设计了三种置信度评价指标(全句平均、实体平均和句子长度),并制定了依据评分高低进行增量训练的课程学习策略用于剔除噪声数据。实验结果表明了该方法能够有效地提高合成数据质量,并进一步提升模型性能。
其他文献
激光波数扫描干涉(Wavenumber Scanning Interferometry,WSI)是结合波数扫描和全场测量方式发展起来的高精度层析测量技术。通过采用相位对照技术,WSI能够对材料内部的变形场和应变场进行层析测量,是现代光学检测中极具发展潜力和使用前景的光测力学技术。尽管WSI在复合材料内部变形场和应变场的层析测量中表现出优越的性能,但在实际应用中仍然存在两个需要解决的问题:(1)激光
学位
现代无轨列车是一种具有全新架构的中运量城市道路交通运输工具,与传统公交相比,具有客运量大、零排放等优点,是普通道路公交系统与轨道交通系统的有力补充。然而,车体之间采用多铰接的方式连接,增加了整车结构的复杂性,运动不灵活。同时由于车轮无轨道约束,运动自由度大,车辆存在折叠、甩尾、轮迹偏差大等失稳问题,对其进行主动转向控制具有重要意义。本文针对现代无轨列车及其主动转向控制策略,开展如下主要工作:(1)
学位
虽然现代工业的蓬勃发展促进着社会的进步,但与此同时工业生产的粗放式增长也带来了十分严峻的环境污染问题,废弃物对人类的环境都产生了不良影响。良好的生存环境是人类赖以生存的根本,所以,在人类社会与经济生活中很有必要保护好生态环境。为了适应企业可持续发展的需要,需对工业废水及废气的处理,将废水废气转化,降低其有毒颗粒的含量。避免工业废弃物污染环境,可以兼顾环境经济效益与企业的社会效益,从而保持了工厂附近
期刊
代码注释主要用于描述程序代码所提供的功能,在软件开发期间和项目维护期间均起到了极为重要的作用。然而,在实际开发过程中,由于人工编写代码注释的时间成本较高,导致大量的程序代码出现注释丢失或注释不匹配的问题。代码注释生成主要将结构化程序代码自动转换为能够描述该程序代码功能的自然语言注释,在一定程度上减少了软件开发人员编写代码注释所需的工作量。一些研究工作直接将程序代码表示为源代码序列的形式,并采用循环
学位
清洁水资源的日益短缺带动了废水处理科学和技术的进步。废水中顽固重金属的去除已被证明是一个具有挑战性的难题,需要开发出更多先进的水处理技术将重金属完全去除至无害化水平。本文对近年来废水中重金属处理技术的发展现状进行综述,包括光催化、浮选、化学沉淀、离子交换、电化学处理、混凝/絮凝、膜分离和吸附等技术,以期为未来高效可行的去除技术的选择和开发提供参考。
期刊
<正>偏头痛是常见的原发性头痛,然而其发病机制尚不明确。目前认可度较高的为三叉神经血管障碍学说、皮层扩散抑制(CSD)学说。其中中枢敏化、降钙素基因相关肽、神经胶质细胞等因素在疾病过程中起着重要作用。现今治疗偏头痛的方法存在不足,进一步探索治疗方法尤为必要。内源性大麻素系统与偏头痛发病关系密切,有潜力成为偏头痛治疗的新靶点。
期刊
近年来,支持向量数据描述(support vector data description,SVDD)广泛应用于异常检测问题。传统SVDD使用hinge损失函数,球体分类器仅由少部分在球体表面的数据点(即支持向量)决定,这使得分类器对噪声敏感和重采样不稳定。在本文中,我们提出了基于pinball损失函数的SVDD模型(pin-SVDD)。在该模型中,全部训练数据(包括在球体分类器内部的数据)都参与决
学位
社交媒体平台下话题多种多样,个体与个体之间通过关注关系、传播关系的网络结构发生信息交互,影响着每一个人的观点行为。本文围绕社交网络中的“话题检测”和“传播人物挖掘”两个核心问题,以Twitter为主要场景展开面向社交网络的话题检测与分析、基于多种关系网络的传播人物挖掘的研究。具体工作内容包括如下3个方面:(1)针对话题检测下的短文本预处理和话题发现的研究,现有方法存在短文本处理不全面、主题模型检测
学位
将全球卫星导航系统(Global Navigation Satellite System,GNSS)运用在列车自主定位中是列车运行控制系统的重要研究方向之一。基于全球导航卫星系统的定位技术和电子通信技术将会被运用于之后的列控系统中。这其中实时位置和速度的获取是列控系统的关键技术之一,为了满足列车精确定位和测速等方面的更高的精度和完好性的要求,轨旁增强网络的研究和搭建被提上了议程。轨旁增强网络提供的
学位
随着我国工业行业的不断发展促进国家经济水平的提升,但是工业生产过程中需要应用大量水资源,生产中所产生的废水不仅对环境造成了严重污染,还浪费许多水资源。近年来,国家越发重视水污染问题,以及绿色生态文明环境的建设工作,为此,国家环境保护部门加大工业废水的处理力度,运用合理的技术方法进行废水处理,达到工业废水再利用的发展目标,进而改善废水的污染问题,促进环境保护部门监管效率的不断提升。因此以工业废水的分
期刊