格到序列神经机器翻译研究

来源 :厦门大学 | 被引量 : 1次 | 上传用户:lixiang1336
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经机器翻译是采用端到端深度学习框架进行机器翻译的方法。近几年来,神经机器翻译取得了飞速的进展以及巨大的成功。由于神经机器翻译能够更好地建模长距离依赖关系,它已经取代了传统的统计机器翻译,成为了目前学术界和工业界最佳的机器翻译方法。主流的神经机器翻译模型一般使用词级别的序列来编码句子。然而,对于神经机器翻译的编码而言,这可能不是最佳选择,尤其是针对拥有歧义切分的语言而言。一方面,切分错误可能对神经机器翻译编码的建模产生负面影响;另一方面,最优的切分粒度对神经机器翻译而言也不明确。针对以上的两个问题,本文提出了使用词格作为输入的格到序列神经机器翻译模型。本文的主要贡献归纳如下:(1)基于自注意力机制的序列标注模型。本文视汉语分词为序列标注问题,针对循环神经网络难以捕捉长距离依赖这个问题,本文提出使用自注意力机制来增强序列标注模型的全局表示能力,从序列标注任务端减少汉语分词对随后翻译的影响。为了进一步验证基于自注意力机制模型的有效性,本文中还在语义角色标注任务上进行了实验。(2)基于格的循环神经网络编码器。本文使用不同粒度的汉语分词结果来构造词格,并首次使用格作为神经机器翻译的输入。本文提出了前置融合型格循环神经网络和后置融合型格循环神经网络两种网络来编码格。特别地,由于使用格作为输入,基于格的编码器可以根据多种不同的输入以及历史状态来生成隐状态。与普通的循环神经网络编码器相比,基于格的编码器不仅可以缓解切分错误对翻译的负面影响,而且能够更加灵活有效地编码输入。(3)深度格到序列神经机器翻译模型。深度模型被证明可以有效地增强模型的表示能力。本文从增加模型深度的角度,提出使用深度层叠循环神经网络以及深度转移循环神经网络两种方法对格编码器以及序列解码器进行扩展,并且构成深度格到序列模型。相较于使用格编码器的浅层模型,深度格到序列模型可以进一步提升翻译模型的性能。本文中在汉语分词和词性标注联合任务以及汉英翻译等任务上对本文中的方法进行验证。实验表明本文中的方法能够有效地提升分词的性能以及减少分词错误传播对翻译的影响。在翻译性能上,格到序列模型能够显著优于传统的基于注意力机制的序列到序列基线系统。
其他文献
溶酶体在细胞的能量代谢和信号传导中起重要作用,是细胞中不可或缺的酸性细胞器。溶酶体发挥功能的过程伴随多种溶酶体参数的变化,包括pH、分布、数量和大小等,pH是溶酶体最重要的一个参数,溶酶体pH在4.5-6.5之间。在不同的细胞信号传导过程中,其pH会发生不同的变化。高分辨率的活细胞溶酶体成像和pH变化测量对于研究生物学过程中溶酶体的作用至关重要。荧光小分子溶酶体探针由于其适用性、安全性和生物相容性
分数阶微分方程是在研究复杂动力系统时出现的一类方程,它能更准确地描述包含自然科学、工程、生物工程以及金融等领域中的诸多现象。分数阶微分算子是一种全局算子,如果用传统的局部算法来求解,如差分法和有限元法,将失去其在求解整数阶方程时所具有的优势。而谱方法作为一种高精度的全局性方法,非常适合数值求解非局部问题,且能够有效的处理分数阶微分算子中的奇异核函数。本文主要研究若干分数阶偏微分方程的高效谱方法,具
Carbon nanotubes(CNTs)are as indispensable and efficient as employed in nanodevices,nanotechnology,and other nanoscaled systems,fabricated through numerous methods and techniques.Their outstanding ela
学位
威廉·吉尔默·西姆斯(1806-1870)是美国十九世纪最重要的作家之一。他著述颇丰,尤其擅长创作罗曼司。他不仅是一位出色的作家,也是活跃的政治家,知识渊博的历史学家,对社会的道德教化也极为热衷。遗憾的是,他在国内评论界引起的关注度不够。目前,国内主要数据库中找不到任何关于他的作品的研究论文。美国西姆斯研究的现状表明语境化是研究该作家的主要方法。研究者们通常将其作品置于作家所处的时代背景中,联系当
为加强现代飞行器和武器装备的生存能力,逃避雷达追踪而实现隐身,吸波材料一直是各国着力研究的热点。在海湾战争、科索沃战争、伊拉克战争等局部战争中,具备吸波材料的军事装备已在战争中实现了出其不意的战略效果。同时,随着现代技术的快速发展,电磁干扰以及辐射的危害也日趋严重。继空气污染、水污染、噪声污染后,电磁污染已成为另一不容忽视的污染源。为有效解决这一污染给人类生存环境带来的困扰,科研工作者一直致力于高
日本思想家竹内好曾经这样评价冈仓天心:“天心是一位难以定论的思想家,在某种意义上说,又是一位危险的思想家。”的确,作为亚洲言说者的冈仓天心,出版了《东洋的理想》(The Ideals of the East,1901-1902)、《东洋的觉醒》(The Awaking of the East,1903)、《日本的觉醒》(The Awaking of the Japan,1904)以及《茶之书》(T
证言知识论是当代知识论中极为重要的研究领域,如今许多有关知识的讨论都不得不涉及对证言的考察。因为在现实中,每个人的大部分知识来自于他人的证言,通过证言获得知识是非常普遍的现象。然而人们究竟如何通过证言而形成知识?或者证言是如何得到确证或辩护的?这一问题是证言知识论的核心问题。本文就是围绕着这一问题而展开。本文主要分为两大部分:第一部分集中于对已有确证理论的分析,并指出它们的不足;在第二部分中,在重
十九世纪后半叶以来基督教传入生活在中国西南及东南亚北部地区的众多跨境族群中,致使群体性皈依基督教之现象频繁出现。其中傈僳人受基督教影响之大,在中国境内少数族群中或在中国西南及东南亚北部地区皆为典型。云南傈僳人基督教信仰之源头,最先群体性皈依基督教的滇西南花傈僳人即为本文的研究对象。做为清王朝统治资源的一部分,滇西花傈僳人得以聚居在临近中、缅贸易通道的高地,在二十世纪初内地会传教士成为滇西以中、缅贸
氮化物发光二极管(Light emitting diodes,.LED)在21世纪初取得了重大的突破,在通用照明领域取得了广泛应用,并逐渐取代白炽灯和日光灯,成为节能环保的利器。目前制约InGaN基LED在大功率领域应用的一个重要因素为大电流注入下的效率衰减(Efficiencydroop)现象。虽然有许多物理机制试图解释该现象,但由于缺乏直接观测手段,该问题的物理起源仍存在争议。高A1组分AlG
陈太宗是越南陈朝开国皇帝,不仅被认为是一位“宽仁大度,有帝王之量”君主,同时也是越南第十三世纪著名的佛学思想家。本文以陈太宗所著之《课虚录》为主要文本,对陈太宗佛学思想进行全面而系统地深入探讨研究,梳理并概括陈太宗佛学思想之主要内容。除了绪论和结语之外,正文分为四章,另有两个附录列于最后。在概述陈太宗的时代、生平、佛学著述以及海内外学界对陈太宗佛学思想的研究动态之后,从体、相、用三个角度来阐述其“