基于无监督领域适应的电商机器翻译研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:ffanhaixin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在电子商务日益增长的环境下,跨语言翻译的需求也随之大幅度增加。人工翻译高成本、低效率的问题逐渐显现,阻碍了经济的发展。机器翻译其高效、低成本的特性能够很好的解决该问题,加快推进全球化经济的发展。但目前高质量的机器翻译系统,其训练过程依赖于大规模的平行语料,这些数据往往存在于新闻、医疗领域以及特定语种中,对于大多数语言对而言,平行资源是稀缺的。电子商务领域公开数据资源更是十分匮乏,并且难以构建平行语料。为了解决电商机器翻译存在的资源匮乏和优化翻译性能的问题,本文构建了中英单语电子商务语料库并进行电子商务机器翻译的无监督领域适应研究。(1)针对电子商务领域资源匮乏以及平行语料难以构建的问题,本文采用无监督领域适应方法在电子商务领域进行探索研究。通过几种典型的无监督领域适应方法构建电子商务翻译模型,包含反向翻译、目标端复制、领域感知特征嵌入以及基于词归纳的无监督领域适应方法,这些方法不仅避开了对电子商务大规模平行语料的需求,同时解决了领域数据差异导致的翻译性能较低的问题。实验结果表明,无监督领域适应是解决领域资源匮乏的有效方法,并且解决了因领域数据差异导致的翻译性能低的问题。(2)针对无监督领域适应中未充分利用内领域数据以及词对匹配不佳,即伪语料质量较差的问题,本文提出了基于混合策略和短语验证无监督领域适应方法。首先采用混合策略的无监督领域适应方法,采取逐渐融合方式联合内领域数据与外领域数据,最后最大化利用内领域数据提升翻译性能。在此基础上,引入短语验证方法,该方法是在混合策略的迭代更新过程中对伪语料中短语进行保留、更新、增加的过程,通过验证筛选伪语料的过程增加了内领域数据信息的比重,从而提高无监督领域适应中的词对准确率,提升翻译性能。(3)针对由于文化不同、表达习惯差异导致的商品描述风格差异的问题,本文提出基于风格感知的无监督领域适应方法。受到短语验证方法的启发,首先引入无监督统计机器翻译优化混合策略,即混合互训练策略,该方法通过统计机器翻译以及神经网络机器翻译的相互训练、相互增强,在此基础上引入拟知识蒸馏实现风格感知,通过基于真实风格的老师模型指导基于真实训练数据的学生模型,使学生模型获得正确的风格信息,实验结果表明该方法不仅能够解决风格差异,同时也能提升翻译性能。综上所述,本文在构建的双语非平行电商数据集上采用无监督领域适应方法进行探索研究,并提出混合策略、短语验证以及风格感知的改进创新方法提升电商文本翻译性能。
其他文献
在我国社会信用缺失严重的情况下,司法性失信惩戒机制是执政者解决社会信用问题的重要制度安排,其对解决执行难问题、提升司法公信力、建设社会信用体系具有重要意义。司法性失信惩戒机制,指的是司法机关对违反法律规定的失信行为人进行司法处置,并向社会公开以及向其他惩戒主体共享信用信息,以实现司法性惩戒、行政监管性惩戒与市场性惩戒联合的惩戒机制。其运行涉及司法性惩戒的实施、信用信息的共享、司法性联合惩戒的落实及
学位
司法与技术的结合一直受到法学界和实务界关注和研究,特别是近些年来,网络信息技术与司法的深度融合提出了智慧司法这种新兴审判方式。智慧司法在司法信息化基础上,借助“人工智能+”对传统司法进行改革,其出现和运用既有学理支撑,也适应了现实需要。但是,无论在实践层面还是理论层面,智慧司法都尚不完善,难以达到人们的预期。因此如何更好地推动智慧司法的发展,发挥其技术层面优势,是我们需要关注和解决的问题。本文尝试
学位
元学习是一种新的机器学习方法,用于解决小样本学习与复杂问题,并作为实现通用人工智能的方式和基础。元学习研究取得了一定进展,但仍存在许多急需解决的问题,如无法在样本数极少的情况下完成对模型参数的准确更新,自适应过程难以充分利用数据特征信息,以及难以避免模型分类器参数初始化的值对性能波动性的影响。针对这些问题,我们将适用于处理高维复杂数据的李群引入元学习,李群能够在还原数据在高维空间中几何结构的基础上
学位
随着信息时代的发展,互联网行业已经成为经济发展的主要推动力,反垄断执法需要不断与时俱进才能更好地迎接互联网等新兴行业。2016年“滴滴优步”的合并是否应当进行事先申报引发热议,至今官方尚无结论。作为典型案例,它体现出我国现行经营者集中申报制度亟待完善,尤其是申报标准对互联网行业涵盖不足的问题。互联网行业呈现网络效应、用户注意力竞争、创新竞争、双边平台等不同于传统行业的特性,由此形成竞争不再与价格紧
学位
随着自身免疫疾病发病率的上升,及时并准确地对其诊断成为研究人员亟待解决的问题。在诊断与抗核抗体相关的自身免疫疾病中,需要判读用病人血清培养的HEp-2细胞间接免疫荧光(Indirect ImmunoFluorescence,IIF)图像的染色模式。传统的做法是依靠医生直接来判读IIF图像的染色模式,其正确性依赖于医生的经验和专业知识。因而,利用人工来判读不仅具有主观性,而且具有高代价性。为此,医学
学位
近年来,强化学习逐渐成为人工智能领域中的研究热点之一,并在机器人控制、棋类游戏、电子游戏等众多领域取得了令人瞩目的成绩。策略单调提升的优化算法是当前强化学习中的一个重要研究分支,在离散型和连续型控制任务中都取得了良好的性能表现。在此类算法模型进行更新学习的过程中,通常使得学习策略单调提升,但由于其策略代理目标函数的特殊结构,在训练中可能会导致算法更新缓慢,并且过高的方差会影响算法的收敛速度。本文针
学位
随着智能手机的普及,移动互联网及全球定位技术的发展,空间众包这一新概念被提出。空间众包中的定价算法决定了向任务请求者收取的服务费用和向工人分发的劳动报酬的金额,以此提高用户参与众包服务的积极性,保障空间众包平台的各种利益。现有研究存在用户的价格偏好学习速率慢,忽略价格偏好动态性以及双边定价算法缺失等问题,因此为了解决这些问题,本文的主要工作如下:面向确定价格的单边定价算法研究:空间众包中面向任务请
学位
跨境电子商务依托互联网技术的发展成为当前增长最快的零售渠道之一,与此同时,出口产品信息的翻译需求日益突显,面向电商领域的机器翻译研究愈发重要。但是电商领域机器翻译系统构建过程中存在两个主要的问题:电商领域公开可利用的数据集稀缺和不同地区不同语言背景的电子商务平台的产品信息描述文化风格差异较大。针对这些问题,本文首先从不同电子商务平台获取了不同语言的产品信息数据,然后基于获取的电商领域单语数据,分别
学位
近年来,机器阅读理解(Machine Reading Comprehension,MRC)社区取得了显著进展,但大多数工作是围绕英文阅读理解开展的。而英语以外的其他语言(如汉语、韩语、法语等)阅读理解,由于缺乏大规模的训练数据,还没有得到很好的解决。另一方面,一些阅读理解由于数据构建方法复杂且需要多种复杂阅读理解技能(如指代消解、跨句推理等)处理,导致训练集数据稀缺,机器和人类性能之间也存在巨大差
学位
知识图谱是一种新颖的语义网络,随着越来越多的知识图谱被不同的个人和机构发布,它们之间的异构性问题日渐显露。因此,如何将多源知识图谱融合,促进知识网络的纵深发展,已经成为了当下一个热点研究方向。实体对齐便是解决这个难题的主要方法,它旨在找到不同知识图谱中指向相同现实世界对象的实体。现有的实体对齐方法主要受到知识图谱嵌入模型的推动,将图谱中的实体和关系编码映射到向量空间中,通过计算向量间的距离得到实体
学位