【摘 要】
:
命名实体识别研究(Named Entity Recognition,NER)在自然语言处理领域中发挥着基础而关键的作用,同时也长期面临着技术难点。当前的研究方案依然无法有效解决实体OOV(Out of vocabulary)问题,并且大部分研究集中在平面的命名实体识别上,所提的序列标注模型无法用于解决实体的嵌套问题。先进而强大的预训练语言模型BERT推进了命名实体识别任务的发展,但BERT类的模型
论文部分内容阅读
命名实体识别研究(Named Entity Recognition,NER)在自然语言处理领域中发挥着基础而关键的作用,同时也长期面临着技术难点。当前的研究方案依然无法有效解决实体OOV(Out of vocabulary)问题,并且大部分研究集中在平面的命名实体识别上,所提的序列标注模型无法用于解决实体的嵌套问题。先进而强大的预训练语言模型BERT推进了命名实体识别任务的发展,但BERT类的模型结构无法有效地区分局部上下文,且没有针对命名实体识别的预训练任务。因此,针对命名实体的嵌套和OOV问题以及BERT模型的不足,本文提出了基于知识嵌入和边界增强的嵌套命名实体识别模型。该模型基于BERT,在其嵌入层、结构层、输出层做出了相应改进:1.提出了实体知识嵌入方法。NER任务在实际应用中面临着实体频繁更新、OOV实体层出不穷的问题。越来越多的研究倾向依靠知识库来解决OOV问题,以知识库的迭代代替模型的迭代,从而实现对OOV实体的快速覆盖。因此本文提出了一种新型的知识嵌入方法,以在微调阶段将无监督的实体信息嵌入模型。该方法主要利用BERT模型中注意力机制和位置嵌入方法来实现点对点的知识嵌入,并借助BERT中下一句预测任务的输入结构,实现了实体知识与模型的有效融合。基于BERT base和BERT small,知识嵌入方法在5个公共基准数据集上均有提升效果。此外,该方法在OOV数据集上F1值提升了4.33%,说明该方法是对OOV问题的针对性解决方法,且达到了较好的效果。2.提出了三角交换机制。BERT模型中使用位置嵌入来获取单词之间的位置关系,但这种位置嵌入并没有刻画上文和下文位置的区别,导致模型建模不够准确。因此本文提出三角交换机制,通过改变模型的自注意力机制结构,增强模型对文本的特征表示。其原理是在多头得到的同源注意力值矩阵之间按照一定规律做上下三角的交换,扩大注意力值动态变化范围,从而刻画上文和下文位置之间的区别。通过与BERT原始模型的实验对比,发现该方法对遮蔽词语言模型的预训练任务收敛速度和精度均有提升,证明该方法可以增强模型对局部上下文的表征能力。而且,将三角交换机制应用于NER任务中,在各个数据集上的实验表现都优于采用原生结构的模型,为模型带来了0.5%~1.0%的性能提升,这明确体现了该方法在NER任务上的优势。3.提出了边界检测与片段分类(B&S)的嵌套实体解析方法。对于嵌套实体的解析,目前很多方法都缺乏效率且忽视了实体的边界信息。本文将嵌套实体解析拆分为两个子任务:边界预测和片段分类。片段分类通常是将输入序列划分为不同区间的子序列进行分类,这明显可以加快模型预测的效率,但其区间阈值设为多少,在NER任务上则取决于实体的长度,即需要获取实体的边界。本文将边界检测与片段分类联合使用,该方法在ACE2005和GENIA数据集上的f1值分别为84.2%和78.6%,相比于仅基于片段的模型FOFE,分别提升了13.2%和7.2%。而且,基于BERT base,该方法在所有基线模型的对比中取得了当前的最优效果,表明该方法在提高模型效率的同时,还增强了模型对于实体识别的准确性。进一步地,本文通过适用性实验,发现该方法适用于各类NER任务。除以上单独验证实验外,综合应用实验表明,BERT base+B&S+知识嵌入的组合在5个基准数据集上的表现,超过了当前所有基线模型,在ACE2005和GENIA上f1值达到85.1%和79.8%,验证了本文所提模型对于解决实体的OOV问题和实体的嵌套问题的有效性。
其他文献
近年来,随着科学技术的快速发展和网络规模的不断扩大,大数据已经遍布政治、经济、社会、文化、生态等领域,已成为信息网络时代的重要特征之一。大数据具有数据量大、类型繁多、价值密度高等特点,其往往存放在多个存储器中。传统集中式优化算法已经不适用于处理大规模分布式数据,而更具鲁棒性和灵活性的分布式优化算法受到研究者的青睐。分布式优化问题的本质就是多节点系统协同合作求解全局目标函数的最优解,其中全局目标函数
淀粉因其价格低廉,且具备较好的粘合作用以及蛋白质节约效应,被广泛地应用于水产饲料中。但鱼类利用淀粉的能力低,在养殖生产中,饲料中过高的碳水化合物水平会导致鱼类出现肝脏受损、高血糖症和免疫力下降等现象,进而影响鱼类的生长,尤其是肉食性鱼类。如何维持鱼类肝脏健康是解决水产养殖难题的关键。为此,本研究设计了三个实验,以大口黑鲈为研究对象,在高淀粉饲料中分别添加胆汁酸、桑叶以及紫苏油,从生长性能、血浆生化
非酒精性脂肪性肝病(Nonalcoholic fatty liver disease,NAFLD)是发病率较高、发病范围较广的常见慢性肝病,其最初表现特征是肝脏脂肪过量沉积。肝脏脂肪沉积(Hepatic fat deposition)不仅严重威胁人类健康,也是养殖鱼类常见肝胆病因,引起肝脏代谢紊乱,给鱼类水产养殖业造成严重的经济损失。早前的研究主要集中于肥胖、高脂等因素诱导的肝脂肪沉积。近几年,越
脂质立方液晶(Cubs)是一种新型药物载体,因其双连续通道结构使得其在难溶性大分子药物的包载与体内运输过程中有巨大优势,杜仲由于其资源稀少,又因其滋补的功效甚佳,所以自古就被视为名贵中药材,《神农本草经》记载,杜仲可补中益气,强筋骨,而植物多糖有着抗氧化、抗肿瘤、提高机体免疫活性的功能,尤其是在机体免疫层面,免疫细胞存在多种多糖受体,植物多糖可提高免疫细胞的活性,使其能在免疫反应过程中发挥更好的作
初一年级的学生正值少年期,是自我意识发展的关键期,性别意识作为自我意识发展的重要内容,对学生实施性别教育理应得到国家和教育者的重视。本文通过对心理健康教育课程课标中性别教育的教学目标解读,为性别教育的研究奠定研究方向;以及通过问卷法、访谈法、观察法的方式对重庆市N中学初一年级性别教育实施现状调研,进行现状讨论、问题总结和原因分析,并结合调研资料提出性别教育的实施对策。研究结果如下:1、初一年级学生
扫描电镜图像的实例分割为探究微粒的粒径分布、粒子形态和表面纹理等问题提供了重要的量化信息,有助于如药物输送系统中表型分析等各类生物医学研究的发展。与传统的基于数字图像处理方法相比,深度学习算法的巨大成功使其被广泛应用于医学影像领域并成为热门研究课题。但由于医学图像标注成本过大,人工标注效率过低,获取足量的手工标注作为训练数据变得十分困难。针对特定的医学扫描电子显微镜图像分割任务,图像中微粒重叠、边
近年来,全球鱼粉资源短缺且价格昂贵,使得饲料成本不断攀升,急需寻找优质廉价的新蛋白源。目前家禽副产物中的鸡骨架受到广泛关注,我国年均产新鲜鸡骨架近400万吨,资源丰富,价格低廉。鸡骨架通过酶解处理可获得优质廉价的功能性蛋白源,即酶解鸡浆,其含有大量的肽类和部分游离氨基酸,营养价值全面。研究表明,酶解鸡浆因富含多肽而具有抗高血压、抗氧化、抗菌以及促进钙吸收等生物活性与功能。为此,本实验旨在通过生长、
肺炎链球菌(Streptococcus pneumoniae)是一种胞外菌,革兰阳性,定植于人上呼吸道黏膜中。这种无症状定植在宿主免疫状态低下和强毒血清型感染时,可能发展为侵袭性疾病,如社区获得性肺炎、败血症、脑膜炎、中耳炎等。炎症小体(inflammasome)是一种多蛋白复合物,由受体蛋白、衔接蛋白和效应蛋白组成。炎症小体的受体蛋白大都属于NLRs家族和ALRs家族,根据受体蛋白组成的不同,研
金黄色葡萄球菌(Staphylococcus aureus,S.aureus)是一种重要的人畜共患食源性病原菌,可引起严重的侵袭性感染。葡萄球菌O型肠毒素(Staphylococcal enterotoxin O,SEO)是一种新型肠毒素,具有超抗原和催吐活性。已有研究表明,S.aureus某些毒力因子如溶血素(Hlα)、毒性休克综合征毒素1(TSST-1)和杀白细胞素(PVL)可以诱导炎症反应,
在高等教育“放管服”改革与依法治校背景下,以法治思维与方式保障、规范高校学位授予权,做到既尊重高校办学自主权,又能“将权力关进制度的笼子”,压实法律底线以规范权力运行,确保教育公平正义其意义深远。高校学位授予权性质定位复杂,关键在于其权力来源的多元性。其一,法律授权高校代行国家学位授予职权,使其具有行政权力特性;其二,高校作为学术组织所内生的专业学术评价权,使其具有学术权利特性。学术权利经法律授权