多语义词向量表示及语义相似度的计算研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:shengweizheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词向量是词语的一种分布式表示方法,它将词语映射为一个定长的连续的稠密向量,这种表示方法能够有效和灵活的保有先验知识信息,通过将其集成到具体任务中可以在自然语言处理的多个研究领域取得较好效果。语义相似度可以定量的衡量两个词语或概念之间的相似性,是自然语言理解的基础,并被广泛的应用于自然语言处理相关的任务中。本文从词向量的角度分析语义相似度相关问题,并提出一种多语义词向量训练模型,以改进词语与词语,句子与句子之间的语义相似度效果。传统的词向量训练模型由于没有区分词语的不同语义,使得一个词语只能使用一个向量来表示,并不能解决一词多义的问题。多语义词向量通过将词语的不同语义分别映射为不同的词向量来解决多义词词向量表示的语义混淆问题。本文通过使用词义消岐相关技术对维基百科数据集进行预处理获得可以区分多义词不同语义的标注语料库,然后利用改进的词向量模型训练多语义词向量表示,并将其应用于句子相似度的计算中,具体研究内容包括:(1)基于循环神经网络词义消岐模型。为了能够区分词语在句子中的不同词义,本文提出了一种基于循环环神经网络的词义消岐模型,通过利用双向LSTM捕捉多义词上下文语序特征改进传统词义消岐模型中不足,在模型构建中我们引入了基于注意力模型的状态叠加机制以更好提供消岐特征。实验结果表明,我们的模型在数据集Semeval2007和Semeval2013中取得了较好效果。(2)多语义词向量表示与其相似度计算。本文提出了一种基于改进GloVe模型的多语义词向量表示方法,通过利用词义消岐相关技术对语料库中的多义词进行词义标注获得能够区分多义词不同词义标注语料库,然后,使用标注语料库和本文提出的训练多语义词向量的方法训练不同语义下词向量表示,解决了传统词向量训练方法中的多义词语义混淆问题,并给出了平均语义相似度和最大语义相似度两种多语义词向量相似度计算方法。最后,给出了模型在邻近词和词语相似性数据集上的实验分析,实验结果表明,通过我们的模型获得的词向量能够区分多义词的不同语义,并在词语相似性数据集SCWS上取得了很好效果。(3)基于多语义词向量句子相似度计算。除了使用传统的循环神经网络计算句子语义相似度之外,本文给出了多语义词向量在句子相似度计算中使用方法。首先,我们介绍了使用LSTM构建的孪生神经网络在句子相似度中的计算方法;然后,提出了简单语义平均和基于注意力机制模型两种方法完成多语义词向量与LSTM整合;最后,我们给出了多语义词向量表示方法与传统词向量表示在句子相似度计算中的实验结果对比。
其他文献
《普通高中英语课程标准》(2017版)将思维品质与语言能力、文化意识、学习能力并列为英语学科核心素养,旨在培养全面发展的人。英语是高中阶段的必修课之一,在我国长期以来,作为外语进行教学,这意味着阅读是语言输入的主要方式。因此,阅读作业作为教学的补充与延伸,肩负着培养学生思维品质的重任。如何通过英语阅读作业培养学生的思维品质,应成为理论研究者与一线教师关注的焦点。本文采用问卷调查法和访谈法,调查目前
在目前课堂教学的研究中,教师话语一直是研究者们关注的焦点之一;而课堂提问则是课堂教学广泛运用的技巧,教师是语言课堂中目标语的示范者,话语质量对课堂教学的组织及其成败和学生对目标语的掌握程度有直接的影响。本研究以江西省南昌市的高中英语教师的课堂提问行为为研究对象,通过教师话语的分析来对比专家型教师和新手教师课堂提问的不同之处,并从提问类型、提问方式,提问策略,等待时间等方面展开分析,重点分析研究了上
近些年来在互联网技术的发展和城市居民对于“最后一公里”的出行需求下,催生出一种新的出行方式——共享单车。共享单车在满足了城市居民的出行需求,减轻了交通拥堵,缓解了
高等职业教育是以培养高技能应用型人才为目标、与区域经济发展最为密切的教育事业。高等职业教育结构是由多元素构成的综合结构,对高等职业教育的质量、现代化的推进以及长效发展有重要的影响作用。长期以来,黑龙江省的支柱产业均为农业和重工业,大量的产业需求催生黑龙江省的人才需求,高职教育发展迅速,这在一定程度上使得黑龙江省的高职教育改革也走在全国前列。然而,在多种因素的共同作用下,黑龙江省的高职教育结构中存在
自十九世纪以来,西方发达国家已经完成五次大规模的并购重组,在全球经济高速发展的今天,中国企业也应当适应全球的发展模式,通过各种形式的并购重组扩大市场份额、提高企业价值。随着国内资本市场的逐渐扩大,金融体制不断完善,证券行业迎来了发展的新机遇。目前,国内证券行业以小规模证券公司为主,规模小、实力弱的特点制约了中国证券行业的进一步发展。并购重组成为证券公司持续发展提供了有效途径。申万宏源横向并购提高了
磷光电致发光器件能够同时捕获单线态和三线态的激子,理论上能取得100%的内量子效率。然而其强烈的自旋轨道耦合的作用易导致三线态-三线态湮灭和浓度猝灭现象的产生,进而降
论文研究区位于鄂尔多斯地块东南缘的渭北隆起带东段,该区域位于盆地边缘,构造较复杂,研究的主要层位是上石炭统太原组顶部的5号煤层。通过查阅大量资料,在充分了解研究区地
全球气候变化问题发展至今,已然成为人类社会共同面临的最为重大的环境问题,其复杂程度远非以往人类所处理的危机所能比拟。其既是环境问题,更是发展问题,牵涉范围之广令全世
本翻译实践报告选取的是俄罗斯车里雅宾斯克州2018年04月05日农业部长阿列克谢·弗拉基米尔维奇·科贝林(КобылинАлексейВладимирович)的讲话及2018年09月05日车里雅宾斯克副州长谢尔盖·尤里耶维奇·苏什科夫(СушковСергейЮрьевич)就地区农业问题接受《共青团真理》电台的采访。选取上述两段音频材料作为口译练习和研究材料,其目的首先在于,近年来俄罗斯农业增
音乐情绪从主观角度来讲是指人们在聆听音乐的过程中产生的情绪体验。网易云音乐用户评论具有抒发、释放情绪的功能,使得“听歌看评论”成为一种流行的听音乐方式。个体听音乐时的情绪体验也受到自身人格特质的影响,研究表明神经质是具有典型情绪风格的人格特质,和个人身心健康有着密切的关系。因此本研究以一般用户和不同神经质水平用户为研究对象,探讨用户评论对音乐情绪的影响。研究一:探讨用户评论对一般用户在听音乐时情绪