面向汉越神经机器翻译的伪平行语料生成方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:ynhz009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经机器翻译要想取得了良好的翻译效果,需要大规模的训练数据,而低资源语言由于训练数据稀缺导致其翻译性能不佳。汉语-越南语是典型的低资源语言对,训练数据不足极大的影响了汉越神经机器翻译的性能。目前利用现有小规模数据进行数据增强是提升低资源语言神经机器翻译性能较为有效的方法,当前已经有多种进行数据扩展的相关研究,例如基于词的替换、单语数据回译和基于枢轴语言三种生成式方法,但这些方法依然存在相应的问题,为了提高生成式数据扩展方式在汉越翻译任务上的应用,本文主要在以下三个方面开展了进一步的研究:(1)提出一种基于短语替换的汉越伪平行句对生成方法。考虑到汉越词级替换中易存在一词多译问题,所以对基于更大粒度的替换进行了研究,提出了一种基于短语替换的汉越伪平行句对生成方法。利用小规模双语数据进行短语抽取构建短语对齐表,并通过在维基百科中抽取的汉越实体词组对其进行扩充,在对双语数据的汉语和越南语分别进行短语识别后,利用短语对齐表中与可替换短语相似性较高的短语对进行替换,以此实现短语级别的数据扩充,并将生成的伪平行句对与原始数据一起训练最终的汉越神经机器翻译模型。(2)提出一种融合单语语言模型的汉越伪平行语料生成方法。考虑到汉语和越南语单语数据的可利用性,我们在回译方法的基础上,将利用大量单语数据训练的目标语言的语言模型与神经机器翻译模型进行融合,在回译过程中通过语言模型融入语言特性,以此生成更规范质量更优的伪平行数据,并将生成的语料添加到原始小规模语料中训练最终汉越翻译模型。在汉-越翻译任务上的实验结果表明,通过融合语言模型生成的伪平行数据可以更有效地提升汉-越神经机器翻译的性能。(3)提出一种基于枢轴语言的汉越神经机器翻译伪平行语料生成方法。伪平行数据生成方法主要有基于词的替换、单语数据回译和枢轴翻译三种。目前的研究集中于三种方法的分别使用,缺少方法间融合利用方面的研究工作,针对此问题,利用英语作为枢轴语言,在汉到英到越正向枢轴的基础上,融入利用稀有词构建的汉-英和英-越双语词典,将汉语单语数据通过模型翻译成英语数据,再利用英-越模型将其翻译成越南语数据,其次进行越到英到汉反向枢轴翻译将越南语单语数据翻译为汉语,以此在两个方向上生成汉越伪平行数据,并利用语言模型对生成的伪平行数据进行筛选。汉-越翻译任务上的实验结果表明,提出的融入双语词典的正反向枢轴方法,能够产生质量更优的伪平行语料,进而提升汉越神经机器翻译任务的性能。(4)构建了汉越伪平行语料库并对其进行测评。通过以上三种方法生成汉越伪平行语料,针对在资源稀缺情况下汉越伪平行数据的最佳利用方案进行测评,对伪平行数据与原始数据的比例及伪平行数据质量对系统性能的影响进行了探索。
其他文献
水利工程是国家重要的基础设施建设项目,不仅能够为国家提供长足的电力能源支持,而且还能起到防洪、灌溉、航运、供水及旅游等综合社会效益。因此,国家对水利工程投资力度不断加大,梯级水电站逐渐增多。然而,传统的建设投资模式使政府面临着财政压力大、建设效率低的难题。近年来,政府为促进水利工程的投资开发,提出将PPP模式应用于我国水利行业的建设中,先后颁布了一系列相关政策及操作指南,以规范水利工程PPP项目的
当今是一个互联网迅速发展的时代,对互联网服务提供商来说,日志数据是一个需要进行挖掘的宝藏库,因为这些日志数据中记录了用户在使用应用时的一些动作规律、个性喜好等用户
在信息技术飞速发展的时代,人们对信息的需求量越来越大,获取信息的方式主要是通过视觉,也就是图像的反馈。彩色图像提供的信息比灰度图像更为丰富,易于人们接受。但彩色图像
伴随着建材行业的迅猛发展,建筑业的粮食—水泥制造业,更是得到了空前的机遇和挑战,大大小小的水泥企业应运而生,在水泥产品高度同质化的情况下,如何在水泥行业中立于不败之地,正考验着每一个新生企业。面对此形势,水泥企业应该抓住时机、求同存异、进行有效的成本控制,这对于水泥企业的经营发展起到至关重要的作用。A水泥公司是辽宁省生产特种水泥及高标号水泥的主导企业,主要从事水泥及制品的生产与销售。2016年以来
税务系统基层公务员作为税收工作的一线执法人员,承担着“为国聚财,为民收税”的重要使命,是各项涉税政策与税收征管工作的最终落实者。而税务系统基层公务员的激励机制则是干部队伍建设的重点、人才兴税的关键,对税务系统基层建设意义深远。从该角度讲,面对此项亟待解决的重要课题,我们需要进一步对税务系统基层公务员激励机制的理论及方法进行研究,并为人才建设可行性研究提供一些借鉴思路。本文通过文献研究、调查问卷和深
近年来,随着图像处理技术的不断进步,使得基于图像的目标识别与检测技术得到迅速发展。深度学习技术的兴起使得卷积神经网络大放异彩,目前已成为计算机视觉领域的研究热点,为解决实际工程应用问题提供了有效途径。为了对火灾现场进行有效的检测,通过借助基于卷积神经网络的目标检测算法来对火灾现场图像进行分析,为火灾救援提供可靠视觉信息。总结了基于计算机视觉的目标识别与检测的国内外研究成果,对基于卷积神经网络的目标
遥感成像系统对空间目标成像时,由于观测距离远,所成图像分辨率较低,如果目标彼此空间距离较近,会形成空间邻近目标(CSO),给目标的数量和位置的信息获取带来困难。空间邻近目
自主感是指“我”导致某一动作产生的主体的感觉,包括内隐和外显两个层面,其影响因素被称为自主感线索。自主感可以保证人们对自身行为的控制程度,常被用来作为社会和法律系统的基石,了解自主感对人们和社会的发展有着重要作用,因此自主感也成为近几年心理学家们的研究热点。本研究采用双任务范式探讨认知资源消耗与情绪效价两种自主感线索对外显自主感的影响。实验一采用双任务范式探讨不同认知资源消耗程度对东方个体外显自主
目的:从五运六气角度探讨鼻咽癌发病的运气特征,并根据鼻咽癌的运气特征立法组方鼻咽解毒增强剂,观察其对裸鼠鼻咽癌CNE2细胞移植瘤的抑制作用。方法:1.临床资料来源于广州中医药大学附属中山中医院门诊及住院并经病理确诊的鼻咽癌患者,时间为2016年7月1日~2019年6月30日,按照纳入及排除标准选取病例,共收集160例。以病人的就诊时间及主诉确定鼻咽癌的发病时间,通过查阅万年历确定发病时间及就诊时间
呵叻盆地位于老挝-泰国境内,是世界上最大的古代固体钾盐矿床之一。该盆地内蕴藏着丰富的钾镁盐矿,为中新生代的大型蒸发岩盆地。盆地内共出露上、中、下三个盐段,各盐段以淡