【摘 要】
:
从传统统计机器翻译到当前基于神经网络的机器翻译,无论是翻译模型训练的速度还是翻译模型生成译文的准确度都取得了巨大的进步,这些进步的背后离不开大量高质量平行语料作为翻译模型的训练支撑。然而高质量蒙汉平行语料目前处于严重匮乏阶段,如何利用现有的大量单语语料数据进行无监督训练,以缓解由于平行语料资源不足导致的蒙汉机器翻译译文不佳的问题,已经成为一个重要的蒙汉机器翻译研究方向。本文通过提出融合并行句子提取
论文部分内容阅读
从传统统计机器翻译到当前基于神经网络的机器翻译,无论是翻译模型训练的速度还是翻译模型生成译文的准确度都取得了巨大的进步,这些进步的背后离不开大量高质量平行语料作为翻译模型的训练支撑。然而高质量蒙汉平行语料目前处于严重匮乏阶段,如何利用现有的大量单语语料数据进行无监督训练,以缓解由于平行语料资源不足导致的蒙汉机器翻译译文不佳的问题,已经成为一个重要的蒙汉机器翻译研究方向。本文通过提出融合并行句子提取的无监督蒙汉神经机器翻译方法,重点对优化传统无监督翻译框架中词典归纳方法,语言模型训练方法及回译训练方法进行了研究。具体工作内容如下:(1)为缓解基于对抗学习的无监督蒙汉词典归纳方法准确度不高的问题,本文提出了一种基于翻译模型的无监督蒙汉词典归纳方法。首先搭建了一个融合不同粒度的无监督蒙汉统计机器翻译模型,并基于该翻译模型通过统计词对齐技术归纳出了蒙汉双语词典。之后通过将基于翻译模型归纳的双语词典,结合基于去噪自编码器训练的语言模型,对无监督翻译模型进行初始化,并通过回译方法训练得到一个无监督蒙汉神经机器翻译模型,该翻译模型生成的译文相比基于对抗学习归纳词典搭建的无监督翻译模型生成的译文能得到更高的BLEU值。(2)为缓解基于去噪自编码器搭建的无监督翻译模型生成译文不够自然、准确的问题,本文实现了基于遮蔽序列到序列(MASS)方法预训练蒙汉语言模型。首先使用蒙汉单语语料结合随机遮蔽,对Transformer的编码器-注意力-解码器共同训练以得到蒙语、汉语语言模型,之后通过结合基于翻译模型归纳的蒙汉双语词典与回译训练方法,搭建基于MASS预训练语言模型的无监督蒙汉神经机器翻译模型,在使用相同蒙汉双语词典的情况下,该翻译模型无论是模型训练的速度还是生成译文的准确度,均优于基于去噪自编码器方法搭建的无监督蒙汉翻译模型。(3)为进一步对无监督蒙汉神经机器翻译模型进行优化,本文提出了一种基于蒙汉合成词典的无监督蒙汉并行句子提取方法。首先通过在基于单词相似度的基础上结合平行句子片段检测,对候选句子对相似度进行加权计算并设定阈值,以从本文建立的蒙汉单语可比语料中挖掘高质量蒙汉并行句子。之后通过将提取到的蒙汉并行句子加入到翻译模型基于回译方法训练生成的伪平行语料中,进一步加快了蒙汉无监督神经机器翻译模型的收敛速度,并提高了生成译文的BLEU值。
其他文献
自动引导运输车(Automated Guided Vehicles,AGV)作为移动机器人的一个分支,广泛地被应用于医疗、服务、工业、智能化立体仓库及近些年获得高速发展的智能物流等行业。AGV的引入,减少了劳动力需求,节约了劳动成本,同时提高了生产效率,在市场中有着庞大的需求潜力和发展前景。移动机器人如何通过传感器感知环境信息,进行自主定位是自主移动机器人能够完成导航、制导与控制任务的关键,而同时
汪曾祺作为“中国式的抒情的人道主义者”,具有深厚的古典文学积累。同时,作为接受了五四新文化精神的先进知识分子,当代京派文学的文学余音,其小说以诗化的、抒情化的描写展现了其对人生存的关注。汪曾祺小说巧妙的融汇了古典文学的“抒情传统”和现代文学的思想情感,在抒情化的小说描写中传递并创化“抒情传统”,成为文学发展中不可忽视的存在。本文采取作家作品研究、史料研究相结合的方法,在文学作品的分析和文学思想归纳
街头流动性餐饮是人们生活中普遍存在并且常见的一种餐饮供给方式,也是商品经济的重要组成部分,满足着很大一部分人群的餐饮消费需求。现阶段,流动性餐饮还处于低端餐饮消费的阶段,缺少品牌化经营,在经营管理与视觉表现形式上依然存在诸多问题,其未来的发展方向受到当今社会的关注与重视。伴随着品牌化时代的到来与发展,街头流动性餐饮正面临着向品牌化转型的良好发展机遇。本文从视觉设计的角度切入,考虑到街头流动性餐饮品
实施乡村振兴战略,是习近平总书记在中国共产党第十九次全国代表大会上提出的一项重大决策,这不仅意味着是新时期“三农”工作的总抓手,更对决胜全面建成小康社会、全面建设社会主义现代化国家有着重要时代意义。纵观自古以来我国的城乡发展情况,中国能有今天的成绩与乡村的快速发展是分不开的,而乡村振兴战略涉及产业发展、民生改善、生态保护、社会治理、安全稳定、文化提升等各个方面、各个领域,既为乡村发展提供了根本遵循
补充侦查是指为进一步查明刑事案件事实,按照法律的相关规定,以最初的侦查工作为基础,补充完善部分刑事诉讼所需证据的一种诉讼活动。退回补充侦查作为补充侦查的一种形式,其是审查起诉阶段的一项重要诉讼制度,虽然其并非刑事诉讼中的必经程序,只有当侦查机关的初次侦查活动未达到审查起诉的标准或存在违法取证行为时,才会启动补侦程序,但它是法律赋予检察机关的一项重要选择性权能,是公诉引导侦查的有效手段,更是构建与传