数据干预增强的命名实体识别方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:hafuu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理中,命名实体识别是许多任务的上游,它为诸如信息检索、智能对话和阅读理解等任务打下了根基。虽然近年来深度学习模型在实体识别这个任务上的进展表明,该任务似乎已经不是一个难点,但是由于深度学习模型对大规模标注数据的依赖导致了命名实体识别任务也通常需要海量数据才能有好的效果。这种缺陷在许多场景下会成为一个致命的缺点,比如在医疗领域,由于隐私保护的原因,我们很难获取到大规模的标注数据。本文针对存在的以上问题,从数据干预的角度做了以下工作:1.本文从因果科学的角度发明了一种反事实样本生成器,该方法能够只对少量观测样本中的实体和上下文进行解耦、重组和判别来自动生成大量的反事实样本,这些样本可用作命名实体识别模型最终的训练。2.本文对现有的词典增强的命名实体识别模型的训练流程进行了抽象,开发了一个高度解耦的开源框架,用户可以基于该框架进行快速实验,或者是添加新的数据集、词典和模型。3.基于上述框架,本文提出了对现有的词典增强模型进行了一系列的经验分析,主要探讨了词典能否进一步提升预训练语言模型在抽取实体上的表现,以及词典的词汇构成与模型性能之间的关系。本文通过实验证明本文的反事实生成器在少量标注数据的情况下能够大幅度提升实体识别的性能,在标注数据只有上百条的情况下能够平均提升5%以上的F1值。此外,本文在一系列基于词典增强的命名实体识别模型上的经验分析表明,词典在大部分情况下都特别有效,尤其是基准性能较差的时候。本文也发现一个好的词典应该包含一个好的预训练词嵌入,以及尽可能多的同时出现在训练集和测试集中的实体。
其他文献
作为推荐系统、在线广告等领域的核心研究方向,点击率预测受到了学术界和工业界的广泛关注。近年来,随着深度学习技术的火热,许多的互联网公司和相关研究机构在将深度学习和传统点击率预测模型相结合的方向上做出了一系列的优秀研究成果。本文通过对已有的点击率预测模型进行总结和分析,发现大多数模型在交叉特征提取机制上存在着缺陷与不足,尤其是没有考虑到特征之间相关性信息和重要性权重的挖掘。针对上述问题,本文根据点击
智能铁路监控系统的图像质量决定了后续智能算法的准确率。本文课题以某公司铁路项目为例介绍了铁路线扫系统的架构及现场安装,详细说明线阵相机的器件选型并完成硬件电路总框图。针对GL0402的成像效果有明显竖条纹现象,采用均匀光筒搭建实验环境进行采集大量图像样本并用均值滤波算法优化,再得出传感器感光响应呈线性。比较两点法和分段线性法优劣,提出两点法固定模式噪声(FPN,Fixed Pattern Nois
“十三五”规划期间,我国的工业化与信息化融合进入了快速发展轨道,伴随着大批中小企业纷纷加快了信息化的步伐。中小企业的生产工艺灵活多变,随着规模的发展业务流程变更频繁,并且不同企业之间具有很大的差异性,为MES系统的开发带来了新的挑战。本论文首先通过分析MES系统的国内外研究现状,提出了本文的研究目标,内容与拟采用的研究方案。然后对MES生产管理子系统的功能性需求和非功能性需求进行分析。在系统设计部
当今互联网业务迭代更新迅速,传统测试方法已无法满足不断变更的测试需求。流量回放作为一个自动化产生真实流量、回放测试用例的方法,能够适应不断变更的测试需求,对测试行业的发展具有重大意义。其中,Http协议作为应用业务的常用网络传输协议,在测试任务中占据很大比例。本文对现有的流量镜像技术和应用测试工具进行研究,学习并分析了相关技术理论,从测试人员的用户角度出发,分析测试人员对流量回放平台的功能需求,设
随着移动互联网技术的普及,传统的办公模式也迎来革新,即时通讯办公软件对于企业而言越加重要。各大软件和互联网厂商陆续推出集办公和通讯为一体的协作软件,然而大部分公司却并未挖掘出企业即时通讯办公软件的潜力,仅仅将其作为内部通讯工具使用。本文选取字节跳动的飞书作为研究和开发对象,为了满足作者所在公司内部各团队对于数据交互、数据连通和自动化办公的需求,同时为了挖掘飞书定制开发的最大潜力,本文设计并研发了一
面部信息是人类情感表达的主要方式,在过去30年中,计算机视觉领域的学者对人脸信息处理相关的课题开展了大量研究,并取得了丰硕的成果。面部表情合成即通过图像处理算法使得输入人脸具有特定的面部表情,是目前人脸分析研究中的热点,并受到了广泛的关注,其在人机交互、电影特效、虚拟现实、动画人物制作等领域具有广阔的应用场景和重要价值。尽管已经取得了很大进展,目前的真实感面部表情图像合成方法仍然存在一定的局限,尤
随着移动互联网广告市场规模迅速扩大,精准营销成为广告投放服务的研究重点,现有的广告投放系统,不能很好地适应网约车场景,针对这一现象,本文研究符合网约车特点的终端广告投放系统。本系统使用基于逻辑回归的CTR预测模型,对在线用户进行展示广告推荐,使用用户历史行为数据周期迭代地训练,降序输出广告集。为了完整地实现展示广告从配置到终端展示的全流程,本系统使用分层架构,基于LNMP(Linux+Nginx+
现如今人工智能伴随着机器学习和深度学习等相关技术的快速发展,已经在日常生活、工作中处处发挥着便利我们的作用,但是智能机器进一步认知人类世界离不开对知识的理解。知识图谱以结构化的形式存储着数据知识,用于描述客观世界中的抽象概念、命名实体以及相互关联关系。知识图谱构建质量依赖于实体关系抽取的性能。目前基于深度学习的实体关系抽取模型依赖于大量的标注数据,而真实应用落地场景中少样本类别所占比例较大,数据长
极细粒度实体分类任务旨在为文本中的命名实体做类别划分,是信息抽取中的关键任务,更细的类别划分能为信息抽取提供更丰富的语义内涵,该技术也是信息检索、问答系统、知识图谱、文本挖掘等下游任务的重要支撑。作为关键任务,极细粒度实体分类需要消除语义上的歧义,根据实体(专有名词)的上下文自动、快速地发掘合理且准确实体细粒度类别含义。极细粒度实体分类由于类别多(超过一千类),标注极为困难因而鲜有标注数据,只能通
工业数据是工业企业的重要资产,有效利用工厂的生产、管理和运营数据可以帮助企业更好地实现精细化管理,但目前流程工业企业信息系统种类繁多、数据类型多种多样,多元数据管理不规范、数据分析门槛高,无法真正实现对数据价值的挖掘。本文以对象化建模技术、数据融合加工技术、大数据分析与挖掘技术为关键技术,结合流程工业企业数据特点以及行业知识,采用对象化建模技术对流程工业不同类型数据进行对象化编排,通过数据融合加工