篇章级神经机器翻译研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:ana504
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,神经机器翻译(Neural Machine Translation,NMT)是机器翻译的主要研究方向。神经机器翻译的研究工作,通常是以句子级别的翻译作为研究对象,对于翻译的过程,往往是将单个句子作为独立的个体来看,忽略句子在篇章中的上下文信息。为了利用篇章信息,生成更为合适的译文,使得译文在整篇文档或者特定的语义环境中,能够保持翻译风格的一致性和翻译的准确性,本文对此提出了三个方法,主要内容包括:(1)基于补全信息的篇章级神经机器翻译。对于句子级别的神经机器翻译,由于不考虑句子的篇章信息,往往存在句子语义表示不完整的问题。该方法通过依存句法分析,对篇章中的每句话提取有效信息,再将提取的信息,补全到源端句子中,使得句子的语义表示更加完整。在汉语-英语语言对进行了实验,并针对篇章语料稀少的问题,提出了在大规模句子级别的平行语料上的训练方法。(2)学习篇章级句子表示的篇章级神经机器翻译。在篇章翻译中,往往将上下文句子的信息融合到当前句中,使得当前句包含上下文信息,以次来捕获篇章中句子间的依赖关系。本文提出了一种新的篇章级神经机器翻译模型,该模型可以同时预测源端语句的目标翻译和周围句子。通过神经机器翻译模型来预测源端上下文,模型可以学习到包含上下文语义信息的源端表示,得到篇章中句子间的依赖关系。(3)融合上下文句子信息的篇章级神经机器翻译。通常,神经机器翻译系统在对文档进行翻译的时候,采用逐句翻译的方式,不考虑句子在篇章中的表示。本文提出了篇章级的神经机器翻译模型,该模型通过额外的上下文句子编码器,来学习源端语句对于篇章中其它的句子的表示,再将这种篇章表示整合到编码器和解码器中。相比于方法(2),该方法可以利用篇章中更多的源端语句以及目标端的篇章信息。
其他文献
二维硫化钼因其特殊的能带结构与优异的光电特性而受到了极大的关注并被广泛应用于各个领域。本文的主要内容是二维MoS2原型器件的制备及光电性能研究。实验过程中采用化学气
铁路列车轴箱系统作为列车走行部的关键部件,同时也是影响铁路列车运行安全状况的重要环节。因铁路列车轴箱系统复杂的工作环境、巨大的动态负载、持续的高速运行状态,导致轴承容易出现故障。因采集的轴箱轴承的振动信号往往淹没在强烈的噪声中,使含有故障信息的冲击成分难以提取。因此,降低环境和系统噪声影响,从背景噪声中提取包含故障特征的冲击成分,成为解决轴箱轴承故障诊断难题的关键。综上所述,列车轴箱轴承的故障诊断
未来战场网络逐渐向异构化和密集化发展,对“可用性”和“安全性”提出了更高的要求。以节点组成骨干网,服务于终端的“节点+终端”通信模式能够较好地适应大范围、高密度部
自然界中昆虫的复眼具有许多优点,其中包括大视场、对动态物体高度灵敏、结构紧凑等。除此之外,方向导航也是复眼的重要特征之一,这使得昆虫能够快速、准确地探测到物体的方
作为发现和认识世界的眼睛和耳朵,雷达广泛应用在导航、测速、气象、空间遥感等一系列应用领域。近年来,受益于半导体技术的进步和和毫米波技术的发展,毫米波雷达的需求呈井
对于全球的国家发展,特别是发展中国家而言,贫困问题是影响地区发展的最为重要的问题,各国政府都在为消除贫困而做出更多的工作和努力。自新中国成立以来,我国一直关注贫困问
掺钕(Nd3+)激光增益介质具有高转换率并有着优良的热学性质,因此特别适用于微片激光器的工作场景。在各种实用场景中,双频微片激光器的频差是影响应用的关键参数之一,而其中
作为信息化产业第三次浪潮的核心技术支撑与第四次工业革命的关键基石,物联网在各个领域得到广泛应用,物联网设备数量井喷式增长。但是迄今为止,安全问题仍然是物联网大规模
涂胶工艺是汽车生产制造的重要工艺之一,该工艺覆盖面广,牵扯技术要求高,一直是汽车生产商长期研究的技术。胶体的三维信息检测是涂胶工艺的重中之重,包括胶高、胶宽、横截面
从改革开放以来,我们党就对解决贫困问题,实现社会主义现代化作出了战略规划。从解决温饱问题到满足人民基本生活需要,从解决物质文化需求到提出“满足人民美好生活需要”,中