基于transformer和LSTM模型的汉语词义消歧

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户：ms45574511

【摘要】

：

【作者】

：

罗干

【机构】

：

哈尔滨理工大学

【出处】

：

哈尔滨理工大学

【发表日期】

：

2023年01期

【基金项目】

：

国家自然科学基金（61502124,60903082）；中国博士后科学基金项目（2014M560249）；黑龙江省普通高校基本科研业务费专项资金资助项目（LGYC2018JC014）；黑龙江省自然科学基金资助项目（F2015041,F201420）；

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

词义消歧是自然语言处理领域的一个常见问题。词义消歧问题的目的是从歧义词的多个词义列表中识别正确的词义,消歧模型往往需要根据目标词汇的上下文来作为判断依据。词义消歧影响到自然语言处理中很多任务的性能,包括机器翻译、文章分类、情感分析、语音识别等。消岐准确率不高是自然语言处理领域急需解决的问题。为了解决消歧准确率较低的问题,本文使用transformer模型、LSTM模型、注意力机制来构建消歧网络。在用语料训练深度学习模型之前,必须对数据进行预处理。即使用向量化工具把语料转化为词向量,具体过程是把词汇映射到一个向量空间,具有相同上下文环境的词汇可能具有相近的向量距离。本文采用有监督的方式训练模型。文章首先介绍了词义消歧的应用背景和使用场景,以及国内外学者在消歧领域的研究趋势,阐述了他们提出的算法和框架。接着描述了语料的准备和预处理过程,包括向量化工具的使用、语料的分词、特征的标注等。详细分析了transformer模型处理词义消歧的原理,包括transformer模型的结构,数据在模型中的计算过程、分类过程等。然后介绍了序列化模型LSTM处理词义消歧的原理,对LSTM网络的各种门结构进行数学解析。同时介绍了改进版的结构BiLSTM。为了提高LSTM网络的消歧能力,本文在LSTM网络中引入了单层注意力机制。最后将transformer网络和LSTM网络融合来处理词义消歧,transformer是一种基于多头注意力机制的多层网络,可以看作是对单层注意力机制的扩展。融合模型可以充分利用LSTM网络的长短期依赖特性和transformer网络的并行处理机制。实验使用有标注的语料训练融合模型,模型通过对分类结果做损失计算,然后借助优化器对损失进行梯度下降来优化模型参数。最后使用测试语料测试优化好的模型。实验结果表明本文提出的消歧方法比单个深度学习模型更好。

其他文献

轮步式机器人测控系统及蠕动控制研究

随着人类对星球探测的不断深入,各种复杂地形如沙丘、陨石坑等也将成为重要的探测目标,这对星球探测机器人的移动性能提出了巨大挑战。轮步式移动机器人一般采用主动悬架或多自由度轮-腿复合式机械结构,可通过蠕动实现大角度爬坡和脱陷等,因此,具备较强的多地形适应能力和移动能力,被广泛用于星球探测中。然而,轮步式机器人特殊的结构和较多的关节自由度增大了机器人蠕动控制的难度。因此,对各关节进行运动规划和协调控制研

学位

基于深度学习的语音情感识别研究

近年来随着深度学习技术的迅猛发展,诸多深度学习模型被应用于语音情感识别技术中。然而,这些深度学习模型存在对情感特征提取不充分、模型复杂度高、对时序特征关注度低等问题。针对以上问题,本文将构建基于多头注意力机制的双向门控深度可分离卷积神经网络模型（Bi-directional Gated Recurrent Unit Depth Separable Convolution based on Mult

学位

基于YOLOv4-tiny的车辆检测与测距算法研究

伴随我国经济发展与制造业进步,居民汽车保有量逐年递增。随之而来,交通事故发生率也逐年递增。为进一步保障交通安全,预防交通事故,探索能够提升车辆行驶安全、可靠性的车辆检测与测距技术已迫在眉睫。为保证驾驶员及时感知前方车辆距离,有效保持安全车距,本文研究基于YOLOv4-tiny的车辆检测算法和车辆测距算法。针对YOLOv4-tiny算法在交通场景检测中误检率高、远距离小目标检测能力差的缺陷,本文设计

学位

基于草图的三维模型检索技术研究

近年来,随着三维技术的不断发展,三维模型逐渐走入了大家的视线中,在传统制造业、机械自动化、自动驾驶、虚拟现实（VR）等领域扮演着重要作用。大众在检索信息时也不只依赖于传统方式,如文字、图像等,作为视觉信息的主要载体之一的三维模型也逐渐被关注。因此,如何能在大量数据中找到理想的目标模型成为了计算机视觉领域的热门课题。由于草图是人脑意识的一个直观表象,因此基于草图的三维模型检索方式既简单,又能够清晰地

学位

基于AST和图注意力网络的C语言代码相似度检测方法研究

互联网技术的跨越式发展和信息的交互共享使得代码抄袭情况以各种各样的方式出现,而涵盖整个抄袭研究领域是非常困难的,所以本文重点对学术界中发生的代码抄袭问题进行检测。本文针对C语言源代码作为研究对象,并对其进行代码相似度检测研究,得出的评判结果辅助后期人工评判。本文首先提出了一种结合抽象语法树（Abstract Syntax Tree,AST）与Token的代码相似度检测方法。首先,将源代码进行预处理

学位

基于卷积神经网络的摩托车头盔佩戴检测研究

随着城市交通拥堵问题日益显著,年轻人更多选择摩托车作为出行工具。头盔作为摩托车骑手必备的防护工具,对保护骑手生命安全的重要性不言而喻。研究利用计算机视觉技术检测摩托车骑手是否佩戴头盔具有重要的现实意义。深度学习技术的快速迭代推动了摩托车头盔佩戴检测相关研究的发展,但现有检测算法仍存在很多不足。首先,现有方法大多是针对单个骑手进行头盔检测,针对多个骑手的研究方案较少;其次,在交通拥塞和摩托车密集等复

学位

基于深度学习优化算法的疾病预测方法研究

随着人工智能的发展,计算机处理数据、分析数据的能力呈指数级增长。医学数据具有特殊性和复杂性,要想挖掘出医学数据背后潜在有用的信息,对于算法的速度与精准度都有着更高层次的要求。为了提供更加科学有效的医疗服务,本课题从特征工程、梯度下降优化算法以及预测模型这三个方面进行研究,建立心血管疾病风险预测模型辅助医生决策。首先,在特征工程阶段,构建强特征向量并且融合随机森林进行特征选择工作。该阶段基于疾病预测

学位

基于体素与全局形状分布特征的三维模型分类

随着计算机视觉的不断发展,三维扫描技术日新月异,伴随而来的是三维模型的数量与日俱增。一个工程往往是由来自不同学科、不同领域的工程师共同设计的,这些人只具备自己领域的专业知识,因此他们只使用自己领域的三维模型进行设计。当设计新产品时,重用已有的模型可以大大提高开发的效率,并降低开发成本。于是,如何高效、准确地对这些三维模型进行分类成为一个亟待解决的问题。本文主要研究了三维模型体素化方法以及全局形状分

学位

探讨策展实践中的前置性研究

＜正＞博物馆一线展陈人员都深知一个道理：绝对没有一个时刻，展览是彻底完成的。开展前一晚的展厅一定能看到工作人员最后的忙碌，并不是准备的太晚，也不是时间节点没卡准。只是在展览不断实现的过程中，一定有更多的灵感不断闪现，更多的思路不断更新，也一定有更多的细节被不断怀疑、不断推翻。在展览工作进程中，似乎前置性的研究工作一直不是必需的，无论前置性研究的结果如何，大部分展览都会如期推进。

期刊

基于草图的跨域三维模型检索

以草图为输入的三维模型检索便于用户表达搜索需求,已成为一个研究热点。利用草图检索三维模型已经在图形学、图像检索和计算机视觉等领域得到了广泛的关注。草图相较于其它用于检索的手段有着巨大优势,如直观性,便利性等,但是它仍存在着一些缺点,如草图只是三维模型一个视点下的粗略描述,具有很高的抽象性和主观性。而且草图和三维模型为非同源数据,二者存在巨大的域间差异。这些导致了目前的草图检索准确率低。为解决这一问

学位

基于transformer和LSTM模型的汉语词义消歧

与本文相关的学术论文