基于混合神经网络的多粒度词义消歧方法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:adu198612
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在移动互联网和大数据迅速发展的时代,海量数据都是以自然语言的形式进行存储,这些数据蕴含着巨大的价值,但同时又存在大量歧义性。词义消歧可增强计算机使用和理解自然语言的能力,在机器翻译、文本分类、信息检索等领域应用越来越广泛。词义消歧已经演变成自然语言处理中亟待解决的重要课题。本文针对在整合词典知识的神经网络词义消歧模型中,存在忽略歧义词上下文和词义定义间层级交互作用的问题,构建基于混合神经网络的多粒度层级融合词义消歧模型,进一步提升词义消歧准确度。本文的主要研究内容如下:(1)提出基于多粒度词级的双向注意力机制词义消歧模型。首先将词级向量和字符级向量垂直级联,采用高速神经网络输出调整相对贡献比的词级向量表示。通过双向注意力模型获得歧义词上下文和词义定义之间的词级交互向量表示,最终输出歧义词在特定上下文语境中的词义。(2)提出基于增强词义定义句子级的双向注意力机制词义消歧模型。引入词典语义关系中词义的上位词和下位词,构造增强的词义定义句子级向量表示。通过双向注意力模型获得歧义词上下文和增强词义定义之间的句子级交互作用向量表示,最终输出歧义词在特定上下文语境中的词义。(3)提出基于混合神经网络的多粒度层级融合词义消歧模型。考虑到歧义词的上下文语境和词义定义的词级和句子级两个层级对歧义词判断都存在重要作用,通过输出层的层级融合计算,得到词级和句子级模型的上下文分数和词义定义分数,判断歧义词在特定上下文语境中的词义。(4)通过实验验证,多粒度向量构建可以获取词级补充表示,上下位词引入可增强原始词义定义语义信息,运用双向注意力模型可构建上下文和词义定义之间的交互作用。本文提出的基于混合神经网络的多粒度层级融合词义消歧模型在Sem Eval-13 task12和Sem Eval-15 task13两个国际评测测试集上的F1分数分别达到了69.3%和73.7%,验证了该模型可进一步提升词义消歧准确度。
其他文献
Pawlak粗糙集模型是粗糙集理论中最经典的模型,它通过确立一种等价关系使论域粒子化,非常适合处理离散型数据,但是对于生活问题中常见的数值型数据,Pawlak粗糙集模型却只能将数值型数据离散化以后再进行处理。为了能够直接处理连续的数值型数据,学者们提出了邻域粗糙集模型。运用邻域粗糙集理论可以直接地处理各种符号类型、数值类型以及混合属性类的大量数据,已被广泛应用于人工智能、模式识别与数据挖掘等科学研
学位
为解决粒子滤波检测前跟踪(Particle Filter Track-Before-Detect,PF-TBD)算法由于粒子退化而无法获得较好的检测跟踪性能问题,各学者提出了多种改进方法,而且为提高PF-TBD对机动目标的处理能力,发展出了多模型粒子滤波检测前跟踪(Track-Before-Detect Based on Multi Model Particle Filter,MMPF-TBD)算
学位
傅里叶叠层成像是一种新型的超分辨率成像技术,该技术利用合成孔径的方式,突破系统孔径的限制,实现超分辨率成像。傅里叶叠层重构过程中需要大量的数据,在采集数据时若存在位置偏差,将影响重构图像的质量,降低重构图像的分辨率。为了解决采集位置偏差的问题,本文从算法层面出发,结合深度学习的方法开展了对傅里叶叠层成像位置偏差校正的研究。介绍了傅里叶叠层微观成像系统和傅里叶叠层宏观成像系统,研究了两种成像系统的物
学位
视频监控是船舶交通领域的主要监管手段,但是受雾、雨、雪等恶劣天气的影响,难以全天候监控,而现有的清晰化算法研究多是针对单一的恶劣天气,能处理多种恶劣天气的算法模型并不多见。因此,设计一个能够自动感知恶劣天气类型,并能自适应去雾、去雨或者去雪的处理方法是很有必要的。本文构建了自适应视频图像清晰化处理系统,该系统可自动对低能见度环境进行感知,利用感知信息,自适应选择和控制视频图像处理算法,以获取与环境
学位
随着地理信息定位技术的发展,用户的生活中开始广泛应用基于位置的服务(Location-based Services LBS),LBS系统的主要目标是获取用户的位置,并向使用者提供即时的信息以便用户做出决策。LBS在诸如车辆导航,医疗保障,用户购物方面都有着重要的应用价值。然而,传统的LBS只是专注于路网距离一个维度,例如,传统的LBS只能查找距离用户最近的酒店而无法查找到距离用户距离近且价格低的酒
学位
因比特币表现出的稳定性和可靠性,具有去中心化、防篡改等技术特性的区块链技术被揭示,并立即得到高度重视。区块链本质上是一个分布式账本,类似分布式数据库,但又有根本区别:去中心化的运行模式。随着区块链应用从数字货币、溯源等迅速扩展到各个领域,已有技术支撑的早期区块链技术方案的容量局限性问题越来越明显,区块链核心技术亟待创新与突破,特别是以公链吞吐量大幅提升和时延降低为代表。现有的扩容技术中,分片技术被
学位
在工业界产品用户体验设计实践中,用户人群划分是一个重要环节。传统的用户人群划分方法存在数据客观性不足、数据分析耗时费力以及过度依赖用户体验工程师主观判断等问题,影响了人群划分的质量。上述传统用户人群划分方法中存在的问题如何借助目前快速发展的用户数据采集工具来加以解决,是一个值得探索的课题。本文针对上述存在问题,选择了游戏、购物两个具有代表性的应用领域,针对每个领域采用迭代方式进行了两轮案例研究,在
学位
随着监控设备的普及,作为智能安保、目标追踪等任务的重要辅助手段,行人重识别近年来被广泛研究。然而行人重识别任务在提取身份相关特征时存在的信息丢失问题会使得行人身份信息提取不够充分,进而影响行人重识别模型的准确度。基于局部特征的行人重识别方法能保留更多的局部重要特征,对遮挡问题也有较好的效果,但应对下采样导致的信息丢失问题存在不足。结合不同分辨率特征的方法在检测和分割任务中已广泛使用且被证明对下采样
学位
微颗粒存在于生活中的各个领域,在海洋生态领域中,微塑料会严重威胁海洋中生物和人类的生命健康。在船舶运输领域中船舶压载水携带的微藻细胞会严重影响当地的水域生态系统,因此微颗粒的检测对人类的生命健康和海洋生态系统平衡都具有非常重要的意义,而传统的微颗粒检测设备由于其操作复杂、体积较大、价格昂贵等因素不适合对微颗粒的快速检测,因而研发一套便携、高效的微颗粒检测设备具有十分重要的意义。本文提出了一种基于多
学位
在这个网络资源膨胀的时代,网络上的数据呈现出数据量大、表达多样和价值密度低等特征,数据的歧义性影响人们对于信息的辨别和理解。为了解决实体的语义歧义问题,实体链接技术被提出,其目标是根据文档中指称的上下文语义信息,链接一个文档的指称到一个知识库的相应实体。为了提高链接的准确率,实体链接方法需要同时考虑指称和候选实体之间的局部兼容性以及与文档中其它实体之间的一致性。本文针对当前大多数实体链接方法在获取
学位