基于注意力机制的命名实体识别研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:honeywell88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理的关键技术之一,可以有效识别信息中各种类型的实体,同时也为其他下游任务提取主要信息奠定了一定的基础。传统的命名实体识别方法主要包括基于人工设定规则的方法、以聚类为主的无监督学习方法和基于特征工程的有监督学习方法。这些方法对人工设计规则或特征提出了很高的要求,而且面对新的数据集或领域,原来的模型往往无法直接迁移。基于深度学习的命名实体识别模型可以自主发现任务所需特征,而且相比传统方法,模型识别效果也有了很大提升。但是,基于深度学习的命名实体识别方法同样存在不足:一是大多数研究仅利用单一的词特征用于模型训练,而忽略了其他语义特征对于增强模型识别能力的重要性;二是部分研究者利用同一个字在整个文档中产生的上下文信息辅助模型预测,但是这些研究忽略了当前字的其他上下文表示是否有利于当前模型训练的问题。本文针对上述两个问题提出了改进,具体如下:第一,针对词特征单一的问题,本文提出了基于注意力机制的多特征命名实体识别模型。首先将初始化字符向量与每个单词的长度向量和该单词中每个字符的位置向量相连接作为CNN的输入提取特征。其次,通过注意力机制融合词缀特征以及多任务学习到的词性特征提升命名实体识别的效果。第二,针对如何有效利用同一个字在文档中的上下文信息,本文提出了基于注意力机制的文档级中文命名实体识别模型。首先,我们利用标签嵌入向量对文档中的信息进行分类。其次,根据分类的信息与目标标签向量之间的余弦相似度构造注意力矩阵。最后,利用注意力矩阵与选中的上下文信息计算文档级特征用于模型预测。本文对所提出的模型在不同数据集上进行了实验分析。对于多特征的模型,实验结果表明该模型在CONLL-2002西班牙数据集、CONLL-2003英文数据集和Ontonotes5.0英文数据集上分别获得了有竞争力的F1分数。在文档信息选择的实验中,结果表明该模型在两个中文数据集MSRA和Resume上分别获得了有竞争力的结果。
其他文献
太行精神诞生于抗日救亡时期,是中国共产党指挥带领八路军和太行人民同日本侵略者进行激烈斗争中用鲜血浇铸而成的革命精神。抗日战争的胜利不仅是中华民族的胜利,更是伟大的太行精神的胜利。在取得胜利之后的七十多年时间里,太行精神并没有随着时间的消逝暗淡锋芒,依旧贯穿于整个社会主义建设与改革时期,始终激励着山西人民不断拼搏,奋发向上,并成为新时期山西转型发展的精神动力。2020年5月,习近平同志来到山西视察时
学位
伴随着全球化的步伐,英语作为一种通用语言在世界领域的使用不断增加,非英语本族语的使用的人数已经远远超过了英语本族语。英语作为通用语已经成为语言学领域的热门研究话题。语力修饰语作为一种重要的语用机制广泛出现在口语和书面语中,用来标记言语及其上下文关系的词语或结构。它不改变句子的真值条件,引导和制约着话语的理解。近年来,语力修饰语一直是大量实证研究的焦点,但对英语通用语学术讲座中语力修饰语的研究还不足
学位
指示词具有标记和强调已知信息的功能,在语篇的组织和发展中起到重要作用,但国内对指示语对篇章组织和发展的研究不多见。在学术写作中合理使用指示词this作为代词和限定词的各种结构将极大地提高文本的衔接性和文本质量。本研究通过自建语料库调查了指示代词this作为代词和限定词在中国英语专业博士论文和英语本族语者博士论文中的使用情况及其异同点。本研究使用定性定量相结合的研究方法,考察了this作为代词和限定
学位
无论中央还是地方的十四五规划,很多都引入了“城市更新”理念,并提出“保护和延续城市文脉,杜绝大拆大建”的要求。每个城市的广场都是最重要公共空间,从无论是威尼斯的圣马可广场还是俄罗斯的红场,从西方到东方,广场的发展史就是城市的发展史,是城市文脉的象征。太原市五一广场是国内最早建设的、最具代表性的城市广场之一,其历史变迁见证了太原市城市公共空间和景观的演变,可以看作同类型城市空间流变的缩影。自1951
学位
山西地区拥有丰富的寺观壁画遗产。山西省境内的寺观壁画数量和面积均位居全国第一,这些寺观壁画在内容表现上极为丰富,不仅描绘有人物故事及宗教内容,还有很多绘制了各种山水场景,无论是构图布局还是皴擦晕染,都具有浓厚的中国传统山水绘画的特点,因此,其山水图像部分也具有较高的艺术研究价值。然而通过文献梳理却发现,对于如此丰富的壁画山水图像省内却少有研究,目前只有《山西寺观壁画山水图式研究》这一课题有系统的研
学位
鸦片战争的爆发,强行打破清政府长期闭关锁国的状态,大量西方文化涌入中国,烟标随之而来,同中国传统思想和价值观念产生碰撞。烟标作为新生事物以精巧的设计,林林总总的内容被大众广泛接纳并喜爱。看似简单的烟标实则包罗万象,不仅是卷烟外包装的标识,同时也是精美的宣传广告,它随着烟草消费者可以深入千家万户,遍达世界各地。故有“方寸之间看世界”、“不出远门而游天下,不览群书而知典籍”的美誉。太原卷烟厂烟标的文化
学位
叙事学理论作为一种最初只是被应用在文学研究上的单一理论,在漫长的发展过程中,已然在诸多领域显示出强大且多层次的理论文本价值。当今在叙事学研究领域,有部分研究者专注于宏观意义上的广义叙事学研究,试图去呈现叙事学的本质;也有的研究者则针对不同类型的叙事文本去构建其专属的学科分支,试图展示多元角度的叙事学理论。但究其根本,无论叙事学以何种路径发展,其必定与所处的时代语境存在某种联系。依托当前的时代语境,
学位
净信寺坐落于山西省晋中市,始建于唐开元元年(公元714年),历经多次重修后仍保有佛传壁画34幅、水陆神衹画像51组及众多神佛塑像。三佛殿佛传壁画细节刻画丰富,造型简约,设色淡雅。画面内的衣饰、家具、器物等充分融合了当时的时代特征,并从民间百姓的生活中汲取众多元素丰富图像细节,较为集中且详尽地体现了明代民间信仰与生活风貌。因此对净信寺佛传故事进行研究,有利于了解明清时期民间佛教的发展状况,并且对我们
学位
宋代是婴戏图发展的巅峰时期,婴戏图画作将描绘的主体聚焦在儿童身上,围绕儿童的游戏、模仿活动、学习等日常生活场景进行刻画。宋代婴戏图具有院体画精细写实的特点,详尽刻画了儿童服饰,其形制丰富,纹样精美清晰可见,色彩明丽典雅,代表了宋代对于儿童服饰的审美取向。相对于婴戏图的繁盛,宋代儿童服饰的文献记载和出土文物寥寥无几,因此宋代婴戏图成为研究宋代儿童服饰的有力证据,具有较高的艺术价值和研究价值。本文以宋
学位
在室内复杂环境下,基于WiFi的人体轨迹追踪可以实现用户在不接触任何硬件设备的情况下,通过简单的手势来控制智能设备。并且可以通过对人体部位识别和移动轨迹的捕捉,来完成根据人的行为制定对智能设备的控制。人体轨迹追踪的研究促进了用户监视和人机交互的发展。人体轨迹追踪在智慧家居、老年人健康检测和入侵者检测等方面具有很好的应用。为了实现在复杂的室内环境下完成人体轨迹追踪,设计了联合动态参数估计(Joint
学位