神经机器翻译中的词汇级翻译忠实度问题研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:Hatchet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于序列到序列的神经机器翻译取得长足进步,译文质量不断提升,逐渐成为一种新的机器翻译研究范式。神经机器翻译不仅得到学术界的广泛关注,成为自然语言处理领域的研究热点,同时各大公司依靠神经机器翻译方法,提供各式机器翻译服务。然而,实践表明现有神经机器翻译方法仍然存在一系列不足之处,其中词汇级翻译忠实度不高是广泛存在的严重问题。本文从语言学角度对神经机器翻译中存在的词汇级翻译忠实度问题进行了系统的分析和总结。由于神经机器翻译模型结构自身存在的问题,编码器往往不能充分理解源语言句子,同时,解码器在生成目标语言词语时也不能精准调控不同语言上下文信息对目标语言词语预测的影响,这些不足之处会降低词汇级翻译忠实度。针对以上问题,本文探索了多种类型语言特征,包括词汇级语言特征、隐式语言特征、深层语言特征和句间语言特征等,并有效增强了神经机器翻译模型编码和利用不同层次语言特征的能力。本文主要工作和创新点归纳如下:(1)基于词汇级语言特征调控的神经机器翻译为增强神经机器翻译模型合理地利用词汇级语言特征的能力,本文提出一种自适应的信息汇聚模型。具体地,首先在编码器端通过该模型调控源语言表示中包含的词语自身及其上下文信息,促使实体词更多地关注自身信息,而功能词包含较多的上下文信息。然后在解码器端,显式调控源语言和目标语言上下文对生成目标语言词语的贡献度。实验结果表明,所提出方法显著提高了译文质量,并减少了错误翻译、漏翻译、重复翻译等翻译忠实度问题。(2)基于隐式语言特征增强的神经机器翻译神经网络可以编码隐式的深层语言特征,如句法特征和语义特征等,有助于消除歧义。针对隐式语言特征的编码和利用,本文提出隐式语言特征增强的神经机器翻译编码器模型。具体地,首先利用降噪自编码神经网络编码不同层次的隐式语言特征。然后,将隐式语言特征合理地集成到神经机器翻译编码器中。实验结果表明,所提出方法显著提升了译文质量,减少了错误翻译、语法错误等翻译忠实度问题。(3)基于深层语言特征建模的神经机器翻译为进一步提高神经机器翻译模型对深层语言特征的编码能力,本文提出一种深层的神经机器翻译编码器模型。具体地,首先将编码器按照分组进行组织,每一个分组包含合适的编码器层,实现分组内部信息的有效传播。然后采用分组跳跃连接机制,促进分组之间信息的高效传播。最后实现了深层的神经机器翻译编码器模型,其编码器层数达到基线系统的10倍。实验结果表明,所提出方法显著提升了译文质量,减少了错误翻译、语法错误等翻译忠实度问题。(4)基于句间语言特征增强的神经机器翻译提高文档内句子间的词汇翻译一致性、连贯性等需要更大的上下文支撑。为最大程度地实现句子之间语言特征信息的编码和利用,本文提出一种面向长序列的文档级神经机器翻译模型。具体地,首先通过位置信息探测任务,发现利用Transformer模型将文档编码为一个序列时源语言表示中缺乏绝对位置信息。为此,本文提出位置信息增强的注意力机制,用于解决位置信息丢失引起的模型训练失败问题。实验结果表明,所提出方法在三个主流的文档翻译数据集上取得了最好的译文质量,减少了词汇翻译的不一致和不连贯等翻译忠实度问题。综上所述,本文围绕神经机器翻译中存在的词汇级翻译忠实度问题,提出了一系列的方法从多个角度更好地捕获和利用语言特征。实验结果表明本文方法能够提升神经机器翻译的译文质量和词汇级翻译忠实度。
其他文献
研究背景:骨髓间充质干细胞(BMMSCs)异常增殖,成骨分化能力受损且成脂能力增强是骨质疏松主要的致病因素。而BMMSCs的分子调控失调是导致其异常分化和增殖的主要原因。寻找新的BMMSCs分化调控新分子及相关机制有助于理解成骨及成脂分化协调平衡,为骨质疏松预防和治疗提供新的思路。研究目的:本研究旨在揭示Ints7-Abcd3/Hdlbp相互作用对BMMSCs生物学行为的影响以及潜在的分子机制。研
学位
目的:目前以免疫检查点抑制剂为基础的免疫疗法已在多种癌症的治疗中取得巨大成功,并且免疫治疗与化疗、放疗、局部治疗等联合已成为肿瘤综合治疗的重要策略。微波消融(microwaveablation,MWA)是一种微创抗肿瘤治疗方式,能够有效触发T细胞介导的抗肿瘤免疫应答。MWA联合免疫治疗在一些临床前和临床研究中取得了重要进展。T细胞免疫球蛋白和免疫受体酪氨酸基抑制基序域(T cell immunog
学位
研究背景:膀胱癌(Bladder Cancer,BCa)是泌尿系统最常见恶性肿瘤,发病率及致死率较高。多项研究表明miR-186-5p、RAB27A及RAB27B在许多恶性肿瘤中扮演了关键角色,但目前有关于miR-186-5p及RAB27A/B基因在膀胱癌中的作用报道较少。膀胱癌在临床治疗上一直是个难题,目前还缺乏敏感性且特异性俱佳的早期诊断标志物。因此,在膀胱癌分子靶向治疗方面寻找可靠且敏感的靶
学位
目的研究长链非编码 RNA 转录因子 7(long non-coding RNA transcription factor 7,lnc-TCF7)作为新型生物标志物在多发性骨髓瘤(multiple myeloma,MM)中的表达;研究lnc-TCF7与MM患者的临床特征和预后的相关性;敲低lnc-TCF7对MM细胞增殖和凋亡功能的影响;验证lnc-TCF7和miR-203的靶向调控关系,并探讨ln
学位
第一部分 microRNA-486在非小细胞肺癌中的诊断价值目的:microRNA-486(miR-486)在非小细胞肺癌中的诊断价值仍不明确,本部分拟通过荟萃分析来评估miR-486作为诊断非小细胞肺癌的生物标志物的临床适用性。方法:使用关键词组合“microRNA-486”,“miRNA-486”,“miR-486”,“lung cancer”,“lung carcinoma”,“lung n
学位
背景:支气管哮喘(简称哮喘)是儿童最常见的气道慢性炎症性疾病。近年来,世界范围内哮喘的发病率和死亡率逐渐上升,这使人类的健康受到了极其大的威胁,也使整个家庭和整个社会背负了巨额的经济负担。哮喘已经成为全球范围内亟待解决的公共卫生难题,从哮喘发病机制层面寻找干预措施是临床急需要解决的实际问题。哮喘的发病机制极为复杂,目前其具体的发病机制尚无确切定论。辅助性T细胞1型(Th1)功能受到抑制,辅助性T细
学位
胃癌是我国最常见的消化道恶性肿瘤,胃癌淋巴结转移(lymph node metastasis,LNM)的状态及分期是反映胃癌疾病进展的重要指标之一,准确定量评估LNM对于预后判定和临床诊疗有重要临床价值。18F-脱氧葡萄糖正电子发射断层扫描与计算机断层融合显像(18F-fluorodeoxyglucose positron emissiontomography/computedtomography
学位
第一章Beclin1乙酰化突变位点K414R与脂肪细胞分化和脂解有关目的:探讨Beclin1乙酰化突变位点K414R对脂肪细胞分化和脂解的影响。方法:健康雄性4周龄的C57BL/6小鼠随机分为对照组和高脂喂养组,经过3个月连续喂养至高脂组小鼠体重≥50g,小鼠被脱颈椎处死,留取皮下脂肪及内脏脂肪;体外实验将3T3-L1前脂肪细胞诱导为成熟脂肪细胞;构建了 Beclin1乙酰化K414R突变慢病毒质
学位
近年来,基于深度学习的图像复原方法逐渐发展成了图像复原领域的主流。然而,在对人眼敏感的图像细节的处理上,此类方法仍然存在着很大的提升空间。究其原因,一个重要的因素是现有方法中缺乏有效的引导。为此,本文将传统的多尺度图像表示技术作为一种引导方式与深度学习技术进行了有机结合,从而展开了面向图像复原的多尺度深度学习方法研究。为了实现上述目的,文中首先在对现有多尺度方法进行了系统性梳理的基础上建立了一种面
学位
食管癌(esophageal cancer,EC)是全球最常见的癌症之一,其发病率及病死率均居全球前十位。2020年全球癌症统计数据显示,食管癌的新发病例为59.8万人,死亡病例为54.5万人。在中国,食管癌也是主要的肿瘤相关死亡原因,食管癌的主要病理亚型包括腺癌、鳞状细胞癌和未分化癌。在中国,约90%的食管癌患者为食管鳞状细胞癌(esophageal squamous cell carcinom
学位