基于实体关系抽取任务的去噪机制与样本分布不均衡研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户：hxl5201314888

【摘要】

：

【作者】

：

李梦婷

【出处】

：

华东师范大学

【发表日期】

：

2020年12期

【关键词】

：

实体关系抽取人机交互众包注意力机制小样本学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在自然语言处理领域,实体间关系抽取技术通过检测非结构化数据中实体对间包含的关系类型,生成对应的实体-关系三元组结构化数据,它能极大提升后续信息抽取任务的工作效率,因此一直受到研究者的关注。传统有监督关系分类模型主要依赖的高质量训练数据集通常难以获取,因此基于远程监督的方法被广泛运用于实体关系抽取任务,该方法在少量已标注数据的基础上,快速生成大规模现实语料的关系标签。然而与有监督数据集相比,由于模板知识库与现实语料存在样本分布偏置,远程监督数据集中包含一类被称为Unknown Unknowns(UUs)未知错误的噪音数据。UUs的特点为模型无法依据常规的评测指标定位其存在,但从人类常识性知识的角度分析,其标签在现实环境中可能完全失实。若此类噪音数据存在于训练集中,无疑会干扰深度学习模型最终的分类效果。与此同时,现实语料无法避免的样本分布不均问题,则会导致深度神经网络对小样本学习欠拟合等问题,无法真实获取各关系类型的特征信息。目前,有关实体关系抽取任务的研究,着眼于分析实体对所在自然语句的上下文信息,并利用强化学习或对抗生成等学习策略,使得分类模型具有识别干扰信息的能力,从而降低噪音数据对分类效果的影响。但是,一方面通过包含噪音的验证集,模型无法证明其挑选的干扰信息是否为真实UUs噪音;另一方面,有关自然语言的理解高度抽象,深度学习模型极易忽略文本歧义等现象。针对文本领域存在的样本分布不均衡现象,相关问题的讨论还处于积极探索阶段。为解决上述UUs噪音与样本分布不均问题,本文实现如下工作:1.提出一种基于实体对上下文的注意力机制,粗粒度筛选潜在UUs噪音。本文关注到模型常用的词向量信息过于单一且与文本内容无语义关联,因此,我们提出一种基于上下文语义的实体对向量,将其与隐含特征组合为句子级别的权重信息,提升句中与关系类别相关的关键词贡献权重,降低噪音数据对分类效果的影响,筛选潜在UUs数据。2.设计一种基于人机交互的实体关系抽取去噪框架,半自动化清洗远程监督数据集中的噪音数据。为低成本高效率识别UUs噪音,我们设计了一套人机交互半自动化噪音清洗框架,该框架由三个模块组成:粗粒度潜在UUs噪音定位模块,细粒度UUs噪音清洗模块和深度学习分类模块。首先利用粗粒度定位自动筛选潜在UUs,再以众包标注进行细粒度UUs清洗,通过粗细粒度模块的相互协作,实现了机器模型与人工的半自动化交互,达到去噪成本与质量的平衡。3.实现一种基于小样本学习的实体关系分类模型,提升小样本类别分类准确率。针对真实数据通常无法避免样本分布不均的问题,本文提出基于小样本学习的关系分类模型。该模型将数据集中样本分布较少的关系类型定义为不同标签的小样本类别,根据各自的小样本数据集学习得到对应的原型模型,降低多样本类别的贡献权重,消除样本分布偏置对分类结果的干扰。综上,去噪框架解决了远程监督数据集中隐含的噪音数据问题,为实体关系抽取任务提供数据支持。因各模块策略和模型的独立性,使得框架具有良好的可移植性,可用于其他任务的去噪工作。基于小样本学习的分类模型则降低了真实数据样本分布不均的影响,为文本领域解决样本分布问题提供思路。

其他文献

樟子松人工林生长对土壤生态化学计量的影响

樟子松固沙林的生长影响土壤碳氮磷化学计量变化,目前该方面的研究较少。本文以科尔沁沙地不同生长期(幼林、中龄林、成熟林、过熟林)的樟子松人工林为对象,研究0～100cm层土壤

学位

樟子松林龄土层化学计量土壤

大连市水源供给与水土保持生态系统服务功能评估

近年来,随着社会的不断发展与进步,社会生产力水平不断提高,人类改造自然的能力逐渐增强,生态问题逐渐出现,生态系统的保护逐渐成为当今世界重点关注的话题。大连市为解决城

学位

生态系统服务水源供给土壤保持InVEST模型大连市

桔梗皂苷D抑制黑色素瘤A375细胞增殖及诱导凋亡的分子机制研究

目的:黑色素瘤（malignant melanoma,MM）是一种高度恶性的皮肤肿瘤,占皮肤恶性肿瘤的第3位。具有转移早、侵袭性强、预后差的特点。黑色素瘤的发病率及死亡率在近30年来逐年上升

学位

桔梗皂苷D黑色素瘤增值凋亡

OsTRM13基因对tRNA中Am核苷修饰的功能研究

tRNA中存在着大量的转录后修饰,这些修饰是由四种基础核苷Uridine、Cytidine、Guanosine和Adenosine衍化而来。它们的存在对tRNA的结构和功能有很大的影响,其中碱基或核糖的

学位

水稻OsTRM13tRNA甲基化修饰Am

湖北地区结合哨兵动物的野鸟流感监测研究

禽流感(Avian Influenza,AI)是由正粘病毒科流感病毒属A型流感病毒引起的家禽和野禽的一种从呼吸系统到全身败血症等多种疾病综合征,其中高致病性禽流感被国际兽医局列为A类

学位

湖北哨兵动物禽流感流行病学遗传进化关系

黑老虎化学成分、质量控制及其果实的抗氧化性研究

黑老虎是五味子科南五味子属植物冷饭团Kadsura coccinea(Lem.)A.C.Smith的根和藤茎,别名冷饭团、大钻,布福娜等;气香味辛、微苦,性温。在民间常用于治疗胃、十二指肠溃疡、

学位

黑老虎化学成分质量分析抗氧化

具有结构约束的四元数矩阵方程迭代算法研究

约束矩阵方程问题是指在满足一定约束条件的矩阵集合中求出方程的解.不同的约束条件与方程都将产生新的研究问题.约束矩阵方程在结构设计、参数识别、自动控制、振动理论、非

学位

四元数矩阵方程中心自共轭矩阵循环矩阵Hankel矩阵共轭梯度迭代算法

风电系统静态电压稳定及有功环流控制研究

电力系统安全稳定运行是经济、社会发展的基础,但现代电网日益庞大的规模和繁杂的结构为其安全稳定形势带来挑战,随着风电并网容量增加,电压稳定问题更为突出。且电网结构或

学位

电压稳定性移相变压器有功环流灵敏度模型风电波动马尔科夫链概率评估严重度指标

岩土结构稳定分析有限元极限平衡法程序的应用开发

边坡失稳是一种严重的地质灾害,灾害一旦发生就会造成大量人员伤亡与巨大财产损失,因此边坡稳定分析对于土工结构设计与灾害防治至关重要。同时,一些学者也认为,土压力与地基

学位

边坡稳定有限元极限平衡法安全系数土压力地基承载力

输水盾构隧道复合结构的应力与变形有限元分析

盾构技术的不断发展和城市化进程的加快使得地下管网设施逐步完善,除地铁以外,盾构隧道开始被广泛应用于输水管道,水资源调配和蓄水排水等输水隧道越来越多。输水隧道可将水

学位

输水隧道复合结构有限元分析受力特性屈曲不均匀沉降

基于实体关系抽取任务的去噪机制与样本分布不均衡研究

与本文相关的学术论文