面向电商领域的无监督领域适应机器翻译研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:xiaohengjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨境电子商务依托互联网技术的发展成为当前增长最快的零售渠道之一,与此同时,出口产品信息的翻译需求日益突显,面向电商领域的机器翻译研究愈发重要。但是电商领域机器翻译系统构建过程中存在两个主要的问题:电商领域公开可利用的数据集稀缺和不同地区不同语言背景的电子商务平台的产品信息描述文化风格差异较大。针对这些问题,本文首先从不同电子商务平台获取了不同语言的产品信息数据,然后基于获取的电商领域单语数据,分别从数据特征、模型优化和系统结合三个角度提出了不同的无监督领域适应方法,提升电商领域机器翻译模型的性能。(1)从数据特征的角度,本文提出基于文化风格区分的无监督领域适应电商产品信息翻译方法。通过给不同语言平台的电商数据添加对应的文化风格区分标记,在训练过程中结合当前数据的所属类别,根据数据的类别信息获取相应的文化风格特征向量,从而提高电商领域产品信息翻译的准确度。实验结果表明,本文提出的混合训练方法和文化风格区分的无监督领域适应方法明显优于各种已经存在的针对单语语料的无监督领域适应方法。(2)从模型优化的角度,本文提出基于信息传递增强的无监督领域适应电商产品信息翻译方法。目前神经机器翻译模型存在泛化能力不强的问题,具体表现为在外领域训练数据上效果较好,而在电商领域表现不佳,针对该问题,本文提出层间和子层间信息传递增强的方法,增强神经网络表示特征的捕获能力,使得神经网络能够捕获更丰富的语义信息。通过对神经机器翻译模型的优化,模型的泛化能力得到了提升,电商领域产品信息翻译的质量也得到了进一步的提高。实验结果表明本文提出的方法无论在外领域平行数据集上还是在电商领域单语数据集上均使得翻译效果得到一定的提升。(3)从系统结合的角度,本文提出基于互训练的无监督领域适应电商产品信息翻译方法。现有研究证明,当训练数据稀少或存在噪音时,统计机器翻译的效果优于神经机器翻译,结合电商平台数据的特点,统计机器翻译在电商数据上有更好的鲁棒性,因此本文提出通过互训练的方法结合统计机器翻译和神经机器翻译构建翻译系统,提升电商产品信息翻译的效果。实验结果表明将统计机器翻译和神经机器翻译相结合能够显著提升电商领域产品信息翻译的质量。
其他文献
随着法治观念深入人心与个人权利意识的觉醒,作为基本人格权之一的隐私权应当得到妥善保护逐渐成为了社会共识,各国对隐私权的保护也逐渐到位。但近些年,网络技术与新兴媒体飞速发展为我们生活带来便利的同时,也为各类侵权行为打开了方便之门,对公众人物隐私权的侵犯是近几年来愈演愈烈值得我们重点关注的话题。认可公众人物隐私权应当得到保护的同时,也不能否认因公众人物的特殊属性对其隐私权进行限制的合理性。理论上,公众
学位
在证券虚假陈述责任纠纷中,上市公司有责任的相关董事往往因为其具体决策和实施了证券虚假陈述行为,而需与上市公司一同承担民事赔偿责任。但立法对该民事责任的性质却未进一步的明确,导致在董事责任的范围和构成要件的认定上,理论和实务界仍存在一定的争议。责任的承担在于义务的违反,在上市公司信息披露的过程中,董事既承担了法定的信义义务和信息披露的保证义务,亦承担了不得侵害第三人合法权益的侵权法上的义务,因此该责
学位
近年来,随着网络经济的发展,计算机网络在企业日常生产经营中正扮演着越来越重要的角色,大量诸如反向刷单、删除源代码、恶意修改线上商品价格等一系列利用计算机网络破坏企业生产经营的失范行为也层出不穷。虽然上述行为因在手段与对象上具备不同于传统罪状的网络特性而使其在接受犯罪评价时遇到诸多“不适”困境,但究其本质二者实际上属性相同,上述差异的形成很大程度上归因于传统解释观点将本罪罪状表述中大量的时代性要素也
学位
在我国社会信用缺失严重的情况下,司法性失信惩戒机制是执政者解决社会信用问题的重要制度安排,其对解决执行难问题、提升司法公信力、建设社会信用体系具有重要意义。司法性失信惩戒机制,指的是司法机关对违反法律规定的失信行为人进行司法处置,并向社会公开以及向其他惩戒主体共享信用信息,以实现司法性惩戒、行政监管性惩戒与市场性惩戒联合的惩戒机制。其运行涉及司法性惩戒的实施、信用信息的共享、司法性联合惩戒的落实及
学位
司法与技术的结合一直受到法学界和实务界关注和研究,特别是近些年来,网络信息技术与司法的深度融合提出了智慧司法这种新兴审判方式。智慧司法在司法信息化基础上,借助“人工智能+”对传统司法进行改革,其出现和运用既有学理支撑,也适应了现实需要。但是,无论在实践层面还是理论层面,智慧司法都尚不完善,难以达到人们的预期。因此如何更好地推动智慧司法的发展,发挥其技术层面优势,是我们需要关注和解决的问题。本文尝试
学位
元学习是一种新的机器学习方法,用于解决小样本学习与复杂问题,并作为实现通用人工智能的方式和基础。元学习研究取得了一定进展,但仍存在许多急需解决的问题,如无法在样本数极少的情况下完成对模型参数的准确更新,自适应过程难以充分利用数据特征信息,以及难以避免模型分类器参数初始化的值对性能波动性的影响。针对这些问题,我们将适用于处理高维复杂数据的李群引入元学习,李群能够在还原数据在高维空间中几何结构的基础上
学位
随着信息时代的发展,互联网行业已经成为经济发展的主要推动力,反垄断执法需要不断与时俱进才能更好地迎接互联网等新兴行业。2016年“滴滴优步”的合并是否应当进行事先申报引发热议,至今官方尚无结论。作为典型案例,它体现出我国现行经营者集中申报制度亟待完善,尤其是申报标准对互联网行业涵盖不足的问题。互联网行业呈现网络效应、用户注意力竞争、创新竞争、双边平台等不同于传统行业的特性,由此形成竞争不再与价格紧
学位
随着自身免疫疾病发病率的上升,及时并准确地对其诊断成为研究人员亟待解决的问题。在诊断与抗核抗体相关的自身免疫疾病中,需要判读用病人血清培养的HEp-2细胞间接免疫荧光(Indirect ImmunoFluorescence,IIF)图像的染色模式。传统的做法是依靠医生直接来判读IIF图像的染色模式,其正确性依赖于医生的经验和专业知识。因而,利用人工来判读不仅具有主观性,而且具有高代价性。为此,医学
学位
近年来,强化学习逐渐成为人工智能领域中的研究热点之一,并在机器人控制、棋类游戏、电子游戏等众多领域取得了令人瞩目的成绩。策略单调提升的优化算法是当前强化学习中的一个重要研究分支,在离散型和连续型控制任务中都取得了良好的性能表现。在此类算法模型进行更新学习的过程中,通常使得学习策略单调提升,但由于其策略代理目标函数的特殊结构,在训练中可能会导致算法更新缓慢,并且过高的方差会影响算法的收敛速度。本文针
学位
随着智能手机的普及,移动互联网及全球定位技术的发展,空间众包这一新概念被提出。空间众包中的定价算法决定了向任务请求者收取的服务费用和向工人分发的劳动报酬的金额,以此提高用户参与众包服务的积极性,保障空间众包平台的各种利益。现有研究存在用户的价格偏好学习速率慢,忽略价格偏好动态性以及双边定价算法缺失等问题,因此为了解决这些问题,本文的主要工作如下:面向确定价格的单边定价算法研究:空间众包中面向任务请
学位