【摘 要】
:
命名实体识别作为自然语言处理领域一项重要的基础任务,应用于机器翻译、自动问答、文本摘要、信息检索等众多领域。传统的基于规则和统计的实体识别方法需要依赖人工设计的特征,通用性较差。而深度学习方法可以通过神经网络自动学习样本来获取有效特征,自问世以来就逐步成为命名实体识别任务的主流方法。在基于深度学习的命名实体识别现有研究中,Word2Vec、Glove等分布式词向量包含了单词的语义信息,被作为单词的
论文部分内容阅读
命名实体识别作为自然语言处理领域一项重要的基础任务,应用于机器翻译、自动问答、文本摘要、信息检索等众多领域。传统的基于规则和统计的实体识别方法需要依赖人工设计的特征,通用性较差。而深度学习方法可以通过神经网络自动学习样本来获取有效特征,自问世以来就逐步成为命名实体识别任务的主流方法。在基于深度学习的命名实体识别现有研究中,Word2Vec、Glove等分布式词向量包含了单词的语义信息,被作为单词的向量表征送入神经网络模型中,可以获得较好的结果。然而,分布式词向量无法解决未登录词(Out of Vocabulary,OOV)、罕见词、拼写错误等问题。其次,分布式词向量不包含单词前后缀、大小写等形态学信息,而这些字符级知识对任务性能的提升具有重要意义。现有的实体识别方法为了融入字符级知识,通常需要加入语言学特征等外部资源,过程过于繁杂。因此,本文研究如何在不使用外部资源的情况下利用字符级知识来提升实体识别任务的性能,通过神经网络模型自动抽取单词的字符级词向量,并实现端到端的训练和测试。该研究具有重要的理论意义和应用价值。本文围绕如何利用字符级知识,提出三种字符增强方案。主要研究内容与创新点如下:(1)提出基于字符长链的字符增强命名实体识别方法。将句子作为字符长链送入双向门控循环单元网络进行编码,通过单词边界获得包含上下文信息且特征丰富的字符级词向量。(2)提出融入自注意力机制的字符增强命名实体识别方法。通过自注意力机制对卷积后的词内字符特征赋予不同的权重,抽取对标签预测贡献更大的特征,以此获得更优的字符级词向量。(3)提出融入胶囊网络的字符增强命名实体识别方法。本文首次尝试将胶囊网络用于字符级词向量的获取,通过低层字符级胶囊将卷积神经网络(Convolutional Neural Network,CNN)卷积得到的局部特征转化为向量胶囊,然后通过动态路由算法抽取字符与单词之间更高层的特征,从而获得包含字符级知识的词向量。针对以上提出的方法,本文分别在Co NLL2003公开数据集上进行实验,实验结果表明所提出的三种字符增强模型在性能上均要明显优于不融入字符信息的基线模型且效果各有差异,证明了利用字符级知识可以带来显著的实体识别性能的提升。此外,本文在融入自注意力机制的字符增强命名实体识别方法的基础上,利用预训练语言模型BERT进一步提升系统性能。加入预训练模型BERT的命名实体识别系统取得了93.13%的先进结果。
其他文献
视唱练耳课程是专业音乐教育体系中不可或缺的基础课程之一,它对于学生音乐素质的提升和专业学习的深入有着关键性作用。随着近年来音乐教育形式的逐渐多元化,视唱练耳课程的内容安排也更为广泛,在教学中适当加入一些实际的音乐作品,能使学生在欣赏不同风格作品的同时,提升视唱练耳的水平,积累音乐方面的综合知识,从而达到更理想的教学成果。本文以视唱练耳教学中的多元化素材作为切入点,简要介绍了它的类型和运用价值,并针
中等职业学校英语课程是九年制义务教育阶段英语课程的巩固与拓展,是一门重要的、必修的文化基础课程。学生通过英语学习和语言实践,逐步掌握基础知识和基本技能,不断提高语
薄皮甜瓜是榆林市榆阳区多年来特色种植产业,但生产中种植户自行留种,品种退化和混乱问题突出,调查产业现状和存在问题,对于这一特色产业的可持续发展具有重要意义。本研究采用问卷调查和实地考察等方法,对榆阳区薄皮甜瓜产业现状和存在问题进行了分析,对芝麻香瓜品种筛选和播种期确定以及配套栽培技术进行了系统总结,针对产业存在问题提出了对策建议。主要结果如下:(1)我们农技部门通过薄皮甜瓜品种引进和筛选试验,从栽
本文是一篇英汉翻译项目报告,项目原文节选自美国知名犹太女性作家安吉亚·叶捷尔斯卡(Anzia Yezierska)的代表作《养家糊口的人》(Bread Givers)第一章和第二十一章内容。作家以自传式叙事的方式讲述了移民美国的犹太女孩萨拉,如何逃离当时犹太社会传统父权的压迫,努力追求教育、自由和爱情的历程,并展现了其在美国化历程中对自我文化身份的迷茫和遭遇的种种挫折。笔者希望通过本次翻译实践,探
随着互联网的飞速发展,目前已经步入大数据时代,这也带来了新环境下的网络安全问题。为了降低网络安全风险,对于能够泛化检测恶意代码的分类检测方法展现出了其在网络中的必要性。恶意代码使用者通常使用复杂的加壳、变形等混淆技术来规避杀毒软件的查杀风险,面对这些变种的恶意代码,如何能够高效、准确的对变种恶意代码进行检测和分类具有一定的研究价值。对于恶意代码识别检测,目前通常是采用的特征提取的方法,通过提取出恶
目的本课题研究发现PIN1在正常皮肤中的功能不是很重要,条件性敲除小鼠皮肤中的PIN1不会影响皮肤的发育及其保护屏障的功能。在皮肤鳞状细胞癌中,PIN1作为一个重要的调控者能
背景:先天性膈疝(congenital diaphragmatic hernia,CDH)是由于胚胎发育异常导致的先天性畸形疾病,是新生儿急危重症之一。探索CDH的发病机制,寻找有效的治疗方法,是临床和科
现代汉语“从+X”在现代汉语中存在三种共时词汇状态,分别是词、短语和跨层的状态。文章在大规模真实语料的基础上,对已被《现代汉语词典》(第7版)收录为词的39例“从+X”进行考察,通过在所选语料库中具有较高词频的词条、成词状态和非词状态分布较为均匀的词条、现有的分词软件对其切分时易出现歧义以及具有“词”“短语”“跨层结构”三种共时词汇状态四个标准进行筛选,继而选出“从前”“从此”“从小”为研究对象,
高温磨损是热作模具在严酷工作条件下的一种典型的失效形式,高温下热作模具钢的耐磨性的差异直接影响着热作模具的使用寿命。然而目前,针对热作模具钢高温磨损失效机理以及影
近年来,铁路行业发展迅猛,铁路运营里程与客货运数量提升明显,而列车行车安全是铁路运输的根本保障。随着列车运行速度的不断提升,由于人为因素或自然灾害带来的铁路异物侵限问题已经变得十分突出,而仅靠列车司机观察与人工巡检的方式已经不能满足现实情况要求。因此,迫切需要在铁路重点路段设置一套具有检测精度高、速度快、性价比高的异物检测系统,能够及时准确的发现异物。在此背景下,本文开展了基于结构光的铁路异物检测