基于噪声抑制的命名实体识别研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:yjm17207928
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究表明,基于深度学习的命名实体识别模型的性能通常取决于训练数据的质量。在某些特定的领域,对数据进行标注通常需要标注人员具备一定该领域的相关知识,这极大地增加了标注数据的难度,所以在这些特定的领域可用于训练的标注数据相对来说比较少。为了快速获得训练数据,通常可以利用远程监督来自动标注数据,但由于词典等知识库的覆盖范围有限,远程监督产生的数据中通常包含较多的噪声数据。此外,即使是人工标注的数据集,由于实体数量和种类的繁多,也会有一部分的实体被标注人员忽略,从而未被标注其相应的类别标签,这些未标注的实体同样也是一类噪声数据。针对训练数据中存在噪声数据这一问题,本文展开了如下研究。(1)为了缓解远程监督所带来的噪声问题,本文提出了一个基于强化学习和对抗训练的命名实体识别模型。首先,为了得到一个具备一定分类能力的判别器,本文结合强化学习机制设计了一个实例选择器,并用其初步过滤远程监督所产生的噪声数据,从而挑选出正确标注的实例来训练判别器。其次,为了进一步过滤远程监督产生的噪声数据,本文设计了两个关键的组件:判别器(Discriminator)和生成器(Generator),这两个组件在对抗训练机制的影响下对远程监督产生的噪声数据进行过滤,并在训练的过程中将不可靠集中的可靠实例划分到可靠集中。最后,本文将结合强化学习机制在更新后的数据集上重新训练一个判别器,以增强其分类能力。在两个公开数据集(EC和Species800)上的实验结果显示,本文提出的模型的性能要优于基于强化学习的命名实体识别模型,能较好地对远程监督所产生的噪声数据进行过滤。(2)针对训练数据中存在未标注实体这一噪声问题,本文提出了一个基于负采样和强化学习的命名实体识别模型。首先,为了降低计算成本,本文采用负采样策略随机挑选一部分跨度作为候选跨度集,由于负采样的过程是随机的,候选跨度集中会存在部分未标注的实体。其次,为了减轻未标注实体对模型的影响,本文结合强化学习机制设计了一个跨度选择器对候选跨度集中的未标注的实体跨度进行过滤,并将挑选出来的正确标注的实体跨度作为负样本。最后,本文将会使用从候选跨度集中挑选出来的跨度作为负样本以及数据集中已经标注的实体跨度作为正样本来共同训练跨度分类器。在三个公开数据集(BioNLP11EPI、BioNLP13CG和BioNLP13GE)上的实验结果显示,本文提出的模型的性能要优于负采样模型,能较好地对未标注实体跨度进行过滤。
其他文献
随着深度学习技术的快速发展,以深度学习为基础的对话系统有望成为下一代人机交互的一种方式。其中的对话生成是对话系统中最重要的环节之一,也是最具有挑战性的研究问题之一。当前的主流对话系统大多基于序列到序列模型,此模型能够从海量训练数据中自动学习生成回复的逻辑,但是由于模型在生成时仅利用了输入语句中的有限信息,造成模型在生成时往往倾向于生成例如“对不起,我不知道。”这样的安全回复。因此学者们尝试引入外部
学位
在基于深度学习的计算机视觉研究中,为了更好的提升视觉效果,通常需要使用大规模的数据来学习训练网络模型。然而,大规模的数据都非常依赖大量的人力进行标注,因此花费非常昂贵。为了使得在标注样本数据不足的情况下也能训练出性能较好的网络模型,近年来,大量的方法被学者们提出。其中自监督学习就是通过大量无标注的样本数据进行自监督训练,来学习样本自身的数据特征的一种方法。针对具体实际问题往往通过迁移学习方法对网络
学位
为了解AMBBR一体化装置处理农村生活污水启动调试过程中脱氮除磷特性,以贵州兴仁周边农村生活污水为处理对象,采用接种闷曝法进行挂膜,研究该装置调试过程中水质变化。同时,将间歇曝气与连续曝气处理效果进行比较,分析设备运行过程中出现的问题并提出相应解决办法。由连续运行检测数据可知,农村生活污水经设备处理后COD、NH3-N、TN和TP分别可以稳定到40、7、10、0.54 mg/L左右。连续曝气和间歇
期刊
随着互联网的高速发展,各类文本数据呈现爆炸式增长,信息过载问题日益严峻。面对海量的结构化文本(如知识图谱、软件代码)或非结构化文本(如新闻、社交媒体),如何快速、有效地从中获取关键信息并将其组织成精简连贯的语言表达形式变得尤为重要。作为缓解信息过载及提高信息获取效率的关键技术之一,自动技术旨在实现文本内容的自动提炼总结,以生成包含关键信息的语言描述。尽管现有主流的自动摘要方法在摘要任务中取得了较大
学位
一直以来,风险管理始终是贯穿于银行经营发展中的一个重要话题。银行在经营过程中面临包括信用风险在内的各类风险,而信用风险是最为主要的一类风险。近年来,各家银行对信用风险的管理日益成熟,手段和方式日益多样化,风险管理也逐步从粗放向精细化的管理模式转变。而信用风险限额管理,作为信用风险管理中的一项重要手段,也越来越受到银行的重视。本文从信用风险及信用风险限额的基本概念入手,研究探讨相关的理论、银行业监管
学位
任务型人机对话系统是指在垂直领域中能够帮助用户完成特定任务的对话系统,口语理解作为任务型人机对话系统的组成模块,主要的作用是将非结构化的自然语言文本转换为机器能够理解的结构化信息。准确理解用户对话中的语义信息是帮助用户完成任务的基础,因此口语理解的好坏直接影响对话系统的性能。口语理解主要包含意图识别与槽填充两个子任务,意图识别用于捕捉用户的意图;槽填充任务用来抽取用户传递的重要信息。近年来,基于深
学位
从全球发展的历程来看,经济是国家之本。纵观我国工业进程的快速推进和高新技术的腾飞,经济和环境一体化趋势逐渐明朗,生态安全和环境问题逐渐被暴露。随着石油等不可再生资源的日益减少,汽车作为现代人生活的不可或缺的交通工具,同时在“十四五规划”纲要中明确指出对绿色生态环境的远景目标,新能源汽车产业作为我国战略性的新兴产业之一,其发展必然离不开科技创新的驱动。在历经11年政府大幅补贴的市场培育过程后,选择新
学位
近年来,国内外经济环境日益变化,中国的银行业金融机构迎来了前所未有的巨大挑战,商业银行特别是中小型的城市商业银行的生存空间日益狭窄,如何及时转变经营思路、找准发展方向、实现精细化管理和差异化竞争是中小商业银行在经营管理中需要尽快解决的问题。全面预算管理和内部资金转移定价(以下简称FTP)是国内外商业银行广泛使用的两种管理工具。全面预算管理作为一种行之有效的战略管理和实施工具,可以有效推动各项经营生
学位
村镇银行是我国农村金融机构改革发展的一大尝试和创新,自2007年全国首家村镇银行——四川仪陇惠民村镇银行成立以来,村镇银行在践行国家乡村振兴战略,助推脱贫攻坚,普惠农村金融市场等方面逐渐发挥了重要作用。在农村信贷业务发展方面,村镇银行将市场定位在服务“三农”“支农支小”,用其特有的、适合农村市场的信贷技术以及决策半径短、审批流程快的信贷服务优势,逐渐在农村金融市场占有一席之地,其“小而美”和“小而
学位
我国《公司法》第142条2018年10月修订后,以上市公司回购股份定价区间为切入点,对回购股份进行研究,不仅在理论层面有创新意义,也在实践层面有指导意义,从打造资本市场良好生态的层面,更有着重要的全局意义。本文以上市公司回购股份为大背景,从回购股份定价区间切入,研究以下两个问题:第一,回购股份是否总是传递上市公司股价被低估的信号?第二,上市公司回购股份的定价区间,受到哪些因素的影响,这些因素的影响
学位