基于多模态词向量的语句距离计算方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhuxuxu520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理中的许多任务都可以转化为计算两个文本之间的距离,比如信息检索和问答系统等。从认知语言学的角度来看,语言的学习是分阶段的,而不同阶段的学习内容之间存在难易的区别,其中学习难度也可以抽象为“距离”这一概念。当一个阶段的内容学习完毕后,需要基于当前的学习难度拓展到下一阶段。目前不同阶段的教材编辑都是基于经验人工构建的,如果能利用自然语言处理中的相关技术优化这一过程,将有利于提高语言学习的效率,同时为认知语言学中的相关研究提供佐证。本文将结合最新的深度学习技术,探索语句之间的距离计算方法。近年来,在分布式语义的背景下,自然语言处理得到了快速发展,其中最主要的成果就是词向量。然而,目前关于词向量的研究都是基于纯文本语料进行的,这与人类的认知过程有相当大的不同。人们在进行语言学习时,依托于丰富的感官信息,能够学习到多角度的知识,特别是其中的视觉信息。为此,本文从多模态的角度研究了词向量的构建方法。目前的主流方法通过直接拼接词向量与图像特征来生成多模态词向量,这种方法略显粗糙。一般而言,图像上往往会存在多种不同的事物,而词所对应的目标物体可能只存在于图像的局部位置。因此,本文提出了基于空间注意力机制的多模态词向量构建方法,以加强目标物体的局部区域表示。结果表明,多模态词向量能够更好地对语义相似性进行建模。在相关任务上,多模态词向量的斯皮尔曼相关系数达到了0.819,对比通用词向量有明显提升。在进行语句的距离计算之前需要先构建句子的嵌入表示。在多模态词向量的基础上,本文进一步研究了句嵌入的构建方法,提出了三种改进方案,包括基于神经词袋模型的方法、基于双向RNN的方法和基于门限CNN的方法。为了使模型能适用于更多的任务场景,本文进一步加入距离计算模块,提出了基于MLP和交互注意力机制的两种距离计算方法,使模型能够根据具体任务来调整句嵌入所在的向量空间。本文在释义识别、答案选择和语句难度距离任务上测试了模型性能。实验结果表明,本文提出的距离计算模型能够根据具体任务来调整距离的概念。在释义识别和答案选择任务上,准确率和MAP指标分别为85.4%和71.6%,达到了主流模型的水平。而在语句难度距离任务上,斯皮尔曼相关系数达到0.692,这表明模型能够对“难度距离”这一抽象概念进行建模。
其他文献
生产效率分析是现代管理理论的重要研究内容。在管理实践中,决策者经常需要对含非期望要素的同类型生产经营活动进行多时期生产效率分析。而针对非期望要素,现有研究主要将其
本文研究以下三个方面的内容:第一部分研究脉冲放养对生活在脆弱生态环境的物种的影响.不同于以往的研究,我们关注的是保护生物学中的一个更重要的情况:当种群有负增长率时,
二氧化碳的主要来源是化石燃料的燃烧,目前二氧化碳的大量排放已经引起了很大的环境问题。当前对于电厂燃烧后二氧化碳的捕捉相对成熟的方法是利用醇胺溶液对CO2进行化学吸附
喀斯特断陷盆地是随着新生代高原隆升产生的断裂活动所引起的断块差异沉陷及溶蚀作用共同形成的山间盆地。喀斯特断陷盆地的水文地质特征研究,对保护盆地内地下水资源及对地下水资源的合理开发利用具有重要意义。本文以昆明市白邑断陷盆地为研究区,结合水文地质背景和泉点水化学特征差异选取盆地内13个泉点作为研究对象,进行周期为一周,时长为一个水文年的连续观测分析,获取了包括pH、EC、水温T、Ca2+、HCO3-、
GNSS(全球导航卫星系统)是新一代精密卫星定位系统。GNSS包括GPS、北斗系统和GLONASS系统,其具有全天候、精度高、成本低、功能多、操作简单、应用行业广等优点。很多GNSS项目
目标检测和跟踪作为计算机视觉的基础研究方向,也是最热门的研究领域。在军事侦察、目标打击、智能家居、视频监控和交通管理等场景中有着广泛的应用。但是由于应用场景复杂、计算平台的限制、目标的尺度及形状变化等复杂问题的存在,目标检测和跟踪算法中仍然有很多困难需要解决。本文以构建实时目标检测及跟踪的系统为目的,针对以上问题展开研究,有效地改善了跟踪系统中首帧检测算法和跟踪算法的性能。本文的主要工作以及创新点
个人数据可携权这一新型权利是目前加强个人对自身数据控制的代表性权利。欧盟个人数据可携权对其主体、客体以及救济机制等的规定在全球个人数据保护立法中都是独树一帜,有其科学性和合理性内涵。对我国来说,不能只顾盲目引进先进的概念,要对欧盟个人数据可携权进行系统的研究。要结合自身国情,尤其是个人信息保护的新要求以及平台经济发展中产生的新问题提出符合我国个人信息保护水平与数字经济发展现状的数据可携权本土化方案
地心运动能够反映全球范围内的质量重新分布以及固体地球和水圈、大气圈之间的相互作用。地表流体质量重新分配引起的周年地心运动最为突出,如果忽略这一影响,可能会导致海平
铁酞菁(FePc)分子因含Fe-N/C基团,成为过渡金属大环化合物中对氧还原反应(ORR)催化活性最好的一种非贵金属催化剂。但是,它易聚集、导电性差、在催化过程中结构不稳定的性质
从历史上来看山水画的发展是一个缓慢而渐进的过程,然而在风云际会战争连绵的二十世纪上半页受西方艺术的影响,山水画的创作手法、内容和观念发生了一次明显的转型。本文以上海画家为例,主要论述“中西融合”的“新派”画家和“四王山水”入手的“旧派”画家分别在转型过程中带来什么样的影响,以及对本人毕业创作的启发。