伪样本生成算法在中文命名实体识别中的研究与实现

来源 :西南石油大学 | 被引量 : 0次 | 上传用户:Viola2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别的目的是识别给定文本中的人名、地名、组织机构名等有意义的实体,是自然语言处理领域一项基础且重要的任务,是许多下游任务的一个重要步骤,如机器翻译、关系抽取和自动问答等,具有相当大的应用价值。深度学习技术因其自主学习特定任务的特征表示能力在命名实体识别中广泛应用,并取得了巨大进展。但是,中文命名实体识别任务还存在一些问题:(1)中文命名实体识别在许多领域的标注数据是缺乏的,而且为深度学习模型标注足够的训练数据是非常耗时和昂贵的。(2)中文命名实体识别通常被建模为字符级别的序列标注问题,因为中文句子是一个长长的字符串,没有像空格那样的显式分隔符来将其分隔成词,对实体边界的识别效果并不太好。中文由于语言的特殊性和复杂性,给命名实体识别的研究工作带来了很大挑战。因此,本文针对上述这些问题进行了探索和研究,论文的主要研究工作如下:(1)考虑到中文命名实体识别任务存在训练标注数据不足的问题,提出两种命名实体伪样本生成算法,分别是基于随机的伪样本生成算法和基于损失的伪样本生成算法。这两种算法都有个共同的假设,即假设同一类别中的实体之间是可以相互替换的。在这个假设的基础上,利用现有标记数据中的各类命名实体,通过提出的伪样本生成算法获得更多的伪训练数据。最后,在目前流行的基于字符嵌入的BiLSTM-CRF模型上,通过对比实验验证了该方法在中文命名实体识别任务上的有效性。(2)为了缓解中文的特殊性和复杂性给命名实体识别带来的困扰,本文提出了融入词向量的BiLSTM-Self-Att-CRF模型。首先,在基于字符嵌入的BiLSTM-CRF模型中,加入所有与词典匹配的潜在单词作为辅助特征,使得模型可以在不受分词错误影响的情况下利用词信息。其次,引入多头自注意力机制,学习整个序列中的全局依赖信息。通过实验结果与分析,表明提出的模型可以实现较好的效果。最后,还将提出的基于损失的命名实体伪样本生成算法融入到该模型中,通过实验对比,验证了其对提升命名实体识别性能的有效性,并且优于其它几种优秀模型。(3)本文设计实现了一个针对新闻文本的命名实体识别系统。系统采用基于Python的Flask框架并结合API技术,将提出的命名实体识别模型部署到系统中,实现了Web端的实体识别功能,并且提供了数据标注功能以扩充训练样本。
其他文献
由于石墨烯的单层平面结构和它独特的化学和物理特性,石墨烯目前被认为是复合材料的理想增强相。石墨烯作为银基钎料的增强相,能够减小钎料和基体之间的接触角、降低热膨胀系数和细化微观结构,从而增强钎料强度。石墨烯在银基钎料中均匀分布以及降低钎料与石墨烯之间热膨胀系数差异从而改善石墨烯与钎料之间的吸附性能是至关重要的,因此本文在密度泛函理论的基础上采用第一性原理计算方法,在Materials Studio软
学位
随着现如今社会经济不断发展,各行各业对天然气的需求量也在不断增大,我国天然气管道的建设正处在高速发展期,十三五期间将会有几万公里以上的干线建设。输气管道具有高压、高危、线路长等特点。管道沿线自然环境恶劣,地貌较为复杂,管道经常遭受高风险环境的影响,极易造成整体移位、局部变形或应力集中,严重时甚至导致管道断裂破坏,造成巨大的经济损失和人员伤亡。目前,应力应变在线监测系统在国内长输管道应用很少,但在川
学位
时下,手机等移动设备的定位功能积累的大量的用户轨迹信息。随着云计算及人工智能的发展,这些海量的数据为学习人类行为轨迹提供了新的研究方向。即分析用户的历史签到轨迹行为预测用户接下来感兴趣的位置,兴趣点(Point-of-Interest,POI)推荐应运而生,并受到学术和工业界的关注。但兴趣点推荐相较于传统推荐具有更大的难度,用户签到数据稀疏度高和影响因素多,时空因素、社交因素等上下文信息和数据稀疏
学位
酸化和酸压一直以来都是碳酸盐岩油藏储量动用的核心技术之一,随着高温井数的增加,该类井在酸化和酸压改造中面临着一些难点,如酸岩反应速度快,不容易产生长的酸蚀通道;酸液滤失速度高,限制了酸蚀裂缝的有效延伸;酸液耐温能力差,难以有效实现深度改造;高温条件下缓蚀能力差,酸液对井下管柱腐蚀性很强等。因此在进行高温碳酸盐岩储层改造过程中对酸液性能提出了更高的要求。目前碳酸盐岩储层常用的酸液体系主要是交联酸和胶
学位
天然气作为现代化建设以及人民日常生产生活中重要的能源,具有燃烧清洁和使用便利的优点,而“西气东输”工程是国家天然气输送的命脉之一。本文针对西气东输管道秀延段的特点,对DD103跨越、DD165跨越和DD178三处跨越点进行了应力分析与安全性研究,对该跨越段管道的安全稳定运行具有一定意义。本文针对跨越管道应力分析与安全性研究,完成如下内容:(1)对发生失效事件的西气东输秀延段DD103跨越、DD16
学位
B型超声成像在临床上应用广泛。超声检查实时、无辐射、性价比高,拥有其它医学成像方式无法企及的优势。但是在实时B型超声成像中,图像的分辨率受到穿透深度、成像时间和成像设备的限制。针对这一局限性,本文提出使用超分辨率(Super-resolution,SR)技术增加B型超声图像的分辨率。近年来,卷积神经网络(Convolution Neural Network,CNN)在自然图像超分辨率重建中表现出良
学位
近些年来,随着大数据和人工智能的兴起,人机交互正在成为一个热门的研究领域,而人脸表情识别技术作为人机交互的重要接口,它承担了机器通过视觉理解人类情感的第一步工作,具有重要的研究和应用价值。人机交互的另一个重要的研究方向就是如何将算法应用于更小型化的嵌入式设备之中,这就需要解决嵌入式设备有限的算力和算法之间的矛盾。人脸检测技术是人脸表情识别技术的基础,本文首先对基于Harr-Like特征的人脸检测算
学位
超声剪切波弹性成像作为一种新兴技术很好的解决了早期超声弹性成像不能定量的计算弹性模量的问题。该项技术的基本原理是通过超声换能器激发声辐射力,使得剪切波在组织中传播,然后再计算出剪切波在组织中传播的波速,最后通过反演公式计算出弹性模量。剪切波弹性成像分为两个主要步骤:运动位移估计和剪切波波速估计。运动位移估计由于要计算多帧的超声射频信号,所以要消耗大量的时间。在医护人员在进行实际的诊断时,过长的成像
学位
随着多媒体技术,计算机图形技术,虚拟现实技术等等不断发展,虚拟培训在石油行业中得到越来越多的应用和重视,因其有着方便快捷,成本低,不受地域限制等等的优点而广为应用,但是纵观石油行业虚拟培训的内容和方向,现有的钻井培训系统主要针对的是钻井工艺方面的培训,而面对钻井过程中的突发事故,却缺少相关的培训系统开发,并且由于这些事故的突发性和特殊性,无法像传统钻井培训那样去到现场进行实地体验,所以为了提高钻井
学位
铝合金钻杆采用挤压的方式生产,挤压过程会有相应的织构产生。目前在铝合金加工过程中织构的演变规律上有很多相关研究,但对铝合金钻杆在挤压加工下的织构演化规律研究的还不够深入。本文借助晶体塑性有限元的方法来研究铝合金钻杆在挤压成形过程中不同部位的织构演化规律。通过Materials Studio软件计算得到铝合金材料的弹性常数符合参考范围,C11=111.941/GPa,C12=62.539/GPa,C
学位