维汉机器翻译语料自动获取及领域自适应研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:tastgaoyan1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字的出现标志着人类文明的诞生,文字是信息的载体,人们通过文字进行思想的交流,文化的传播,但是不同国家的语言不同,这一问题严重制约着人类的发展,特别是在全球一体化快速发展的今天,实现各种语言之间的相互翻译已经成为一个重要的研究课题。目前流行的统计机器翻译(Statistical Machine Translation,SMT)和神经网络机器(Neural Machine Translation,NMT)翻译已经取得了突飞猛进的发展并取得了令人欣慰的研究成果,虽然英汉、英法、葡英等语言之间的翻译在特定领域已经取得了较好的翻译效果,但是对于诸多地区性语言或者非世界性语言,例如维语、哈语、土耳其语到汉语等,这些语言之间的翻译还处在研究的初期,翻译的效果还不尽如人意。不论统计机器翻译还是神经机器翻译,其核心思想都是通过训练双语语料得到翻译系统,双语语料对机器翻译有着至关重要的作用,但是目前维汉、哈汉等机器翻译存在着双语语料严重不足的问题,研究自动获取双语语料的方法可以快速的构建翻译系统并提高翻译质量。另一方面翻译系统领域的影响,不同领域的机器翻译系统有着不同的翻译效果,用与翻译系统领域差距较大的文本进行翻译,会大大降低翻译质量。  本文以维汉机器翻译为突破口,以快速构建机器翻译系统和提高机器翻译质量为目的,重点研究维汉双语语料的自动获取和维汉机器翻译领域自适应。一方面,针对维汉双语资源稀缺的现状,提出首先构建携带语义信息的维语和汉语词向量模型,然后通过深度学习方法推导双语词向量,进而推导句对齐双语语料,该方法可以极大的缓解双语资源稀缺的现状,用尽量少的双语知识自动获取双语句对齐语料,另一方面,为提高维汉机器翻译质量,本文提出了一种机器翻译领域自适应方法,分别通过翻译模型和语言模型两个方面进行领域自适应,在实际翻译中,通过构建词向量并结合主题分析模型,选取与领域相关性最高的翻译系统进行翻译。  本文的主要贡献可以总结如下:  1、维汉双语词典自动获取  针对目前维汉双语语料资源稀缺的现状,本文提出一种从双语单语语料中推导学习双语互译词的方法。该方法与传统的从平行句对齐语料中获取双语互译词的方法不同,该方法最大的特点就是不需要使用双语句对齐语料,仅仅需要数百个双语词就能从双语单语语料中获取双语互译词对。该方法特别适用于资源稀缺型语言间的语义表示。  2、面向稀缺资源的维汉机器翻译双语语料自动获取  目前主要获取双语句对齐语料的方法是通过构建分类器,通过分类器识别平行语料,但是训练一个良好的分类器需要足够的双语句对齐语料,然而对于资源稀缺型语言,双语句对齐语料极其难以获取,本文提出了结合深度学习的方法进行双语句对齐语料的自动获取,该方法首先借鉴于双语互译词的推导过程,通过双语互译词的学习,得到分类器的句对齐训练语料,然后本文构建了一个深度双向循环神经网络分类器,将双语语料的获取过程视为一个分类的过程,进而自动构建机器翻译双语语料。  3、面向维汉机器翻译的领域自适应  为了进一步提高维汉统计机器翻译质量,本文提出了一种领域自适应的方法,该方法分为翻译模型领域自适应和语言模型领域自适应。针对翻译模型领域自适应本文使用词向量和主题分析模型将训练语料进行主题领域自动分类,然后在翻译过程中,根据翻译需求选取领域最相关的系统进行翻译。对于语言模型领域自适应,根据特定领域,使用基于权重的编辑距离方法选取特定领域的训练语料,提高语言模型质量。  4、基于覆盖度的维汉机器翻译训练语料选取  为了进一步研究提高维汉机器翻译的方法,本文提出了一种基于双语句对覆盖度的方法进行语料的选取,该方法结合维汉双语一对多现象严重的特点,使用一种n-gram的方法计算句子中的冗余信息,通过过滤双语句子中的冗余信息,使得在使用较少训练语料的情况下,得到一个近乎相当于较大规模训练语料翻译性能的翻译系统训练语料。
其他文献
来自中国互联网信息中心的数据称,互联网数字分配机构地址池中的 IPv4地址已经分配完毕。可见当今互联网的发展已经达到鼎盛时期。而现在的中国的互联网更是爆炸式发展,中国
SIP因简单、易用等优点成为下一代网络的核心信令控制协议,因此基于SIP的服务和产品大量涌现。由于SIP所处的开放、复杂的网络环境和协议自身缺乏安全机制,导致SIP服务和产品面
随着新型遥感数据应用的日益广泛和深入,快速而准确的提取信息已成为制约遥感应用的瓶颈,对遥感图像进行分割已成为解决这个问题的重要手段之一。基于图论的图像分割方法能够
随着移动互联网技术的发展和移动终端的不断普及,文字识别技术蓬勃发展且日趋成熟。手写输入作为移动平台上的一种高效文字录入方式,被越来越多的使用者所接受。近三十年来,
近年来通信技术、存储技术及处理器技术发展迅速,通信方式已发展成为视频音频通信方式,人们对图像质量的要求也日益升高。H.264视频编解码标准是新一代视频压缩编码国际标准,
近年来,社交网站得到了越来越多的关注,一大批社交网站如Renren、Facebook等快速崛起,这些互联网社交网站拥有庞大且日益增长的用户社群,围绕用户积累了大量的社会性数据。对
多Agent系统,正朝着大规模、开放的、动态的和分布式结构的方向发展,在系统中拥有大量自私的 Agent,与其它 Agent交互时提供虚假信息或劣质服务来获得自己最大化利益。在任何
数学和逻辑中把一个公式中的某个子项替换成另一个子项的操作过程就是项重写。项重写系统的理论是计算的基础理论。本文属于项重写技术在形式化方法领域的应用研究。主要贡献
工程进度管理是现代企业管理中一个必不可缺的重要组成部分,是保证工程项目按期完成,合理安排资源供应,节约工程成本的重要措施。企业的工程进度管理要求在既定的工期内,编制
当今时代,由于互联网的飞速发展,网络已经成为传播信息的主要载体之一。由于网络本身的虚拟性、随意性和渗透性,决定了网络舆情具有传播速度快、波及范围广、影响程度深的特点。