孪生网络编码器中融合句法结构信息的句子嵌入表示学习研究

来源 :华东交通大学 | 被引量 : 0次 | 上传用户:diliwer3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理研究是人工智能领域的核心难题,解决该问题的关键是如何让机器正确解析自然语言的语义,并获得某种形式的语义表示。由于自然语言中的句子是承载语义信息的主要单位,因此,准确解析句子语义是实现自然语言语义理解任务的关键。鉴于分布式词嵌入表示已经在机器翻译、自动摘要等自然语言处理任务上取得了成功的应用,人们很自然地想到能否将分布式表示扩展到句子、段落或篇章等长文本,即将句子、段落或篇章的语义表示映射至低维的连续空间。由于句子是组成段落和篇章的重要语言单位,它是由词语根据句法结构耦合得到,而现有的句子语义嵌入表示方法主要是基于句子中的词嵌入表示进行加权或求和平均,忽略了词序和句法结构信息,因此学习到的句子嵌入表示并不准确。本文主要针对当前句子嵌入表示学习中因为缺乏句法结构信息、以及句子长度过长导致的长距离依赖,致使句子嵌入表示不准确的问题,提出两种方法。第一种方法是基于句法结构化特征的句子嵌入表示学习方法,为了减少参数训练耗费的时间以及句子中非重要信息对于句子语义的影响,在构建句法结构树时,对于一些复杂的句法结构树进行相应的剪枝操作,并且将句法信息转化为权重计算。另一种方法是将词向量同句法信息(词性、短语、从句标签)进行权重融合,突出词语在不同句子结构中表达的语义信息,并将融合后的向量通过孪生LSTM网络进行编码,以学习得到句子的嵌入表示。通过与现有的有监督和无监督学习算法对比,本文提出的方法得到的句子嵌入表示,在句子相似度计算任务上的表现,好于现有的其它方法。
其他文献
随着我国工业化进程的加快,工业自动化水平不断提高。物流这个劳动力密集的行业要想降低成本,提高自动化水平显得尤为重要。物流AGV(自动引导车)作为室内仓库中重要的运输设
近年来平板显示产业规模持续扩大,智能手机,平板电脑等电子产品的兴起使得平板显示屏生产制造规格越来越大。在液晶面板生产过程中对其进行缺陷检测,则可以在确保产品良率的
计算机视觉在当今工业物联网中发挥着重要的作用,而图像识别是计算机视觉中最重要的部分之一,卷积神经网络算法由于其较高的识别精度成为图像识别的首选。在很多图像识别应用中,由于对实时性有一定要求,所以神经网络的推理需要在本地硬件上执行,如无人机的碰撞检测等。并且由于GPU功耗较高,限制了其在功耗与资源有限的嵌入式平台上使用,因此需要一种高能效、可配置的卷积加速器来满足卷积神经网络算法在嵌入式平台上的应用
过去的几十年中,由单目相机多方位拍摄的二维图像序列恢复三维非刚体结构NRSFM(non-rigid structure from motion)是机器视觉领域的研究热点之一。但处理NRSFM问题困难重重,
羁押场所作为国家的刑罚执行的重要设施,具有监控管理犯人的重要职能,高水平的管理可有效防止犯人逃脱再次危害社会。最近,羁押场所的押量犯人的数量持续上升,人控管理的传统
缅甸语是缅甸的官方语言,属汉藏语系藏缅甸语族缅甸语支,与同语系的汉语和藏语语音合成研究相比,缅甸语语音合成相关研究亟待重视。本文以开发缅甸语语音合成系统为目的,构建发音语料库,研究并实现文本归一化、分词和文本注音。本文的主要工作包括:(1)构建发音语料库。从缅甸语网站上抓取大约600M原始文本语料,去除语料中的非法字符和重复句子,并统一文本语料的字符编码方式。统计文本语料库中的高频词、句子长度、句
脑卒中是目前危害人类健康的无形利刃,是世界范围内发病率和死亡率最高的原因之一。多对比高分辨率MRI可以无创显示管壁结构和斑块成分,为分析颈动脉粥样硬化斑块提供有效手段。通过对多对比MRI进行对比和分析,可以更准确地发现粥样硬化是否存在、确定斑块部位、判断狭窄程度和斑块成分识别。但是,在磁共振实际检查中,由于得到的多对比序列图像扫描方位和参数不一致、几何空间不匹配以及检查持续时间长,容易产生运动位移
PCB板元器件插件的正确与否决定了电路板的质量及生产成本,尤其是带有极性和方向性的元器件的反接将直接损坏电路板,给生产造成损失。而基于自动光学检测(Automatic Optical
目的:随着CT和MRI等影像学检查的广泛应用和体检的普及,无症状性肾癌的诊断率越来越高,局限性肿瘤比例增加,是否在肾癌根治术中同时行同侧肾上腺切除术越来越受到关注。本课题通过回顾性研究方法,对我院收治的肾癌根治术患者进行随访调查,旨在探讨肾癌根治术中肾上腺切除术的临床意义。方法:回顾分析我院2012年1月1日-2018年12月31日收治的386例获得完整随访的肾癌根治术患者临床及病理资料,其中30
印度尼西亚语(简称印尼语)源自于苏门答腊岛东北部的马来语,属于马来-波利尼西亚语系。世界上约有三千多万人将印尼语作为他们的母语,且大约有一亿多人将其作为第二门语言。现代马来语和印尼语都使用拉丁字母拼写,两种语言的拼写也比较接近。论文以开发印尼语文语转换应用系统为目的,设计并实现基于隐马尔可夫模型(Hidden Markov Model,HMM)的印尼语文语转换基线系统,并在此基础上探索提高语音合成