基于多粒度语义信息的神经机器翻译研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lpucicy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着深度学习技术的逐步成熟,自然语言处理技术得到了迅猛的发展。其中,机器翻译作为自然语言处理领域中最具挑战性的研究任务之一,性能也得到了大幅度的提升。目前,机器翻译的研究重点已从统计机器翻译过渡到了神经机器翻译。这是由于传统的统计机器翻译模型通常都需要人工设计各种特征,并进行组合。但这种方式需要大量的人力、物力,难以获得高质量的人工标注数据,进而导致严重的数据稀疏问题,极大的影响翻译性能。神经机器翻译弥补了这些不足,它采用了一种端到端的‘‘编码器-解码器’’的结构来进行翻译建模。主要改进了两方面:一方面是采用了分布式向量来表示语言单元,与统计机器翻译的离散表示方法不同,这种连续空间表示方法增强了语言单元之间的联系;另一方面是采用卷积、循环等神经网络模型对不同的语言单元进行组合,不需要人为设计各种特征就可以获得丰富的语言单元的语义信息,增强语义表示能力。实验表明,利用这些神经网络学习到的语义信息特征可以极大提高机器翻译的性能。然而,目前的神经机器翻译并没有显式地加入短语级、句法级等语义信息,只是利用了源端的词级语义信息来生成目标翻译。为了充分利用语义信息,本文进行了基于语义信息的神经机器翻译建模研究。首先不同于传统的基于源端词汇级语义机器翻译建模,本文首次提出研究目标端词级语义机器翻译的建模方法,该方法可以充分利用目标端的历史和未来词级语义信息。其次,为了解决源端和目标端的语义信息空间异构问题,本文分别从短语级、句法级和句子级三个层面统一重构双语语义空间,提升双语语义空间的映射一致性,从而提升机器翻译的性能。本文的研究内容概括为以下四个方面:1.基于目标端词级语义的神经机器翻译:当前,注意力机制已经被证明是一种有效的神经机器翻译方法。它通过调整源端词级语义的注意力权重来获取有用的信息,从而生成更好的目标端词语。注意力机制可以很好的处理长距离依赖问题,可以缓解信息在循环神经网络中长距离传输出现丢失等情况。但目前的注意力机制都应用在源端,并没有显式地考虑目标端(Transformer模型也仅考虑了目标端的历史词级信息,没有考虑未来词级信息)。而统计机器翻译则是通过引入语言模型来促使目标端词语之间的语义关系更加紧密,从而使译文更加流畅。这说明目标端词语之间的语义关系也十分重要。为了解决这个问题,本文提出了一种基于目标端词级语义的神经机器翻译模型,它可以获得目标端词语之间的语义信息,动态地调整的目标端词语的注意力权重,以便更好的生成译文。2.基于短语级语义一致性的神经机器翻译:短语在自然语言处理任务中有着非常重要的位置。尤其是在传统的统计机器翻译问题中,它的基本翻译单元就从单词级提升到了短语级。随着短语结构的引入,统计机器翻译的性能也得到了大幅的提升。但在目前先进的神经机器翻译模型中,多是以单词级为基本单元,进行解码翻译。所以如何将短语级的语义信息加入到神经机器翻译模型中就成了一个热门问题。为此,本文提出了一种基于短语级语义一致性的神经机器翻译模型。该模型可以同时考虑源端和目标端的短语级语义信息,并让它们的短语级语义空间更接近。这样,神经机器翻译模型可以同时结合短语级和单词级语义信息来生成翻译预测。3.基于句法级语义一致性的神经机器翻译:句法结构分析是一种关键的自然语言处理技术之一。一方面自然语言的理解需要句法结构分析,另一方面句法结构分析也可以为其他自然语言处理任务提供支持。这是由于语义信息的表示通常用句法结构分析的结果作为指引。在机器翻译任务中,传统的统计机器翻译模型就引入了句法结构分析特征来提升翻译性能。但在目前的神经机器翻译模型中,仅在源端尝试了该方法。为了引入两端的句法结构语义信息,本文提出了一种基于句法级语义一致性的神经机器翻译模型。在源端和目标端分别引入多粒度的句法结构语义信息,并缩短它们之间的句法级语义空间向量的距离,使两端的句法级语义也保持一致。4.基于句子级语义一致性的神经机器翻译:目前的神经机器翻译都是使用大量的平行语料进行训练,源句与目标句之间存在着天然的对应关系。但传统的神经机器翻译训练目标是使译文中的单词与参考中的单词之间损失最小化,并没有显式地考虑句子级的语义关系。而进行翻译时,人们考虑的是待翻译句子的全部语义,而不是逐字地进行翻译。针对这个差异,本文提出了一种基于句子级语义一致性的神经机器翻译模型,它可以显式地引入了句子级的语义信息。这种神经机器翻译模型首先对源端和目标端的句子级语义表示进行建模,然后引入一个额外的损失函数来缩短两者的语义空间距离。本文还在此基础上使用了目标端的句子级语义信息来加强源端的语义表示,从而更紧密地结合了两端句子级语义信息。
其他文献
目的:在探索利奈唑胺联合磷霉素对肠球菌体外抗菌活性的基础上,建立体外药代动力学模型研究两药联合在亚抑菌浓度下对肠球菌的影响,为临床用药提供剂量优化和方案指导。方法:采用药敏试验、棋盘法试验探讨利奈唑胺联合磷霉素对临床分离的5株肠球菌在体外是否具有协同作用。选择协同作用较好的3株菌,设计静态时间杀菌曲线试验探讨其体外抗菌活性。建立磷霉素和利奈唑胺的体外药代动力学一室模型,在模拟人体给药剂量情况下,分
学位
锦屏山-小金河断裂带位于青藏高原东南缘。青藏断块区的东边界是一构造和地震强烈活动的弥散边界带,近年来,已相继发生过2008年汶川8级、2013年芦山7级和2017年九寨沟7级地震。从龙门山断裂带再往南,青藏断块区的东南边界带在哪存有很大争议。部分资料认为锦屏山-小金河-丽江断裂带是龙门山断裂带的南延构造,也是青藏断块区东边弥散边界带的重要组成部分。活动构造与古地震研究资料已证实丽江-小金河断裂带为
学位
近年来,各类扰动问题频发导致愈加严重的事故后果,使得外部扰动分析和扰动控制逐渐成为安全研究的重要内容,然而当前安全领域关于扰动控制的研究始终较少,有关事件全面控制的内容仍不健全。为构建完整的安全控制体系,安全结构理论以缜密的数学逻辑关系构建事件安全控制体系,可揭示灾害发生、发展和演化的本质规律,但此理论虽涉及外部扰动问题却未对其深入研究,导致对扰动控制的应用性较差。因此,为完善安全结构控制体系的外
学位
目的:精子鞭毛多发形态异常(Multiple morphological abnormalities of the sperm flagella,MMAF)是弱畸精子症中的严重亚型,其特征是射精的精液中出现大量不动的精子并伴有严重的精子鞭毛多种形态异常。先前的研究报道了与MMAF相关的异质性遗传图谱。然而,鉴定出的遗传变异不能完全解释MMAF导致的弱畸精子症的遗传学病因。因而本课题纳入以MMAF为
学位
研究背景高血压脑出血是一种高致死率和高致残率的自发性脑血管病,由于其治疗方式多样,患者出血情况复杂导致影响HICH预后的相关因素较多,传统的经验医学以及评分量表都难以对患者的预后进行个体化预测。而人工神经网络通过模拟人脑神经元网络处理、记忆信息的过程,使其具有自学习,高速求解等能力,从而实现大数据的分析和处理。现人工神经网络已广泛地应用于疾病的诊断和预测中。目的本研究的主要目的是为了创建基于人工神
学位
2019年6月,中办国办印发《关于进一步弘扬科学家精神加强作风和学风建设的意见》,首次明确规定了新时代科学家精神的基本内涵,主要表现为爱国、创新、求实、奉献、协同、育人精神。在革命、建设、改革的各个历史时期,我党都高度重视科技工作以及科学家群体的发展。各个不同历史时期科学家群体共同呈现出来的科学家精神是中国精神的重要组成部分。同时,从教育目标与内容上看,科学家精神与思想政治教育具有耦合性。将科学家
学位
语体正式度是学术英语写作研究的一个重要方面,是反映论文作者语言能力与学术论文写作水平的重要因素。科技论文作为展现科研成果和学术交流的重要载体,其文体的正式度相对较高。近年来研究发现,英语学术论文正式程度呈相对下降趋势,而中国学者英语科技论文是否也呈现相同变化态势,具体表现在哪些方面,是本文的研究重点。本研究以自建中国学者科技论文语料库为研究对象,以BNC-15语料库中的四个语体(学术论文、科普、新
学位
四甲基吡嗪(Tetramethylpyrazine,TTMP),又称川芎嗪,是一种具有生物活性的含氮杂环化合物,在医药、食品、化工等行业都有广泛的应用。四甲基吡嗪生物合成过程的中间产物复杂且难以检测,因而其生物代谢途径的解析仍面临诸多困难。本研究靶向筛选获得了高产四甲基吡嗪的菌株,并从其基因组和转录组信息中探究四甲基吡嗪及其前体物质乙偶姻的生物合成过程,为全面解析四甲基吡嗪生物合成途径提供了重要的
学位
为了迎合乡村旅游热潮,乡村景观设计中存在着“城市化”误区,忽视了乡村自身传统文脉的独特价值。而乡村景观的规划与设计,对我国实现乡村振兴,发扬乡村传统文化,以及提高乡村居民的幸福感至关重要。因此本文以乡村景观为研究对象,探讨了基于乡村文脉传承的乡村景观设计研究,并以晋安前洋村为案例进行验证,主要研究结果如下:(1)通过运用文献研究法、多学科交叉研究法、案例分析法、实地调研法等研究方法对国内外的相关研
学位
党的十九大明确提出乡村振兴战略以来,我国掀起了一场乡村规划建设的热潮。推动乡村建设,实现乡村振兴,对于解决新时代中国特色社会主要矛盾,推动经济社会发展具有重要的意义。乡村景观作为乡村地域综合体的重要构成部分,构建更加合理、更加完善的乡村景观规划建设体系,建立健全相关实践标准,进行乡村景观规划的研究具有及其重大的现实意义与价值。首先,本文按照“理论研究-案例分析与借鉴-调查研究-实践论证”的思路,以
学位