面向终身学习的机器翻译系统研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:yedixx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今经济全球化,“一带一路”蓬勃发展的大背景下,不同国家地区、不同语种人群之间的文化、学术、商贸和政治等方面的交流日益频繁。而通用领域场景下的机器翻译模型已无法满足更加多元化、深层次的跨语言交流需求。为解决多领域翻译的领域适应问题和多领域多模型的成本问题,本文结合终身学习算法,进行多领域翻译任务持续学习的研究,提出了面向终身学习的机器翻译系统。在面向终身学习的机器翻译系统研究过程中,本文的主要工作内容如下:1、针对系统在学习新领域任务时的基础语料和知识的准备,本文设计了一套新领域语料自动获取与知识挖掘的流程。本文使用基于Fast DTW的方法,获取高质量的句子级平行语料。对于语料中的知识挖掘,本文提出融合多元信息的KDwith Multi Info和KAwith MRC分别进行平行语料中的知识发现和知识对齐。对于领域判别问题,本文结合少样本学习提出DDwith Prompts,进行适应领域增长的多领域判别。实验证明以上三种方法分别具有深层次、准确的领域知识挖掘能力和模型快速训练和准确分类的领域判别能力。2、针对系统的多领域翻译问题,本文分别展开了基于数据融合和基于模型融合的终身学习机器翻译技术研究。本文使用领域知识的融合和NDNMTWith Ins的领域实例模型训练方法进行基于数据融合的机器翻译研究,实验证明该方法在新领域中具备较高的知识翻译准确率以及较强的学习能力;在基于模型融合的机器翻译中,本文结合Prefix-Tuning方法提出NDNMTWith PT,增强系统拓展性与灵活性,实验证明该方法在缓解灾难性遗忘问题上具备较大优势。3、设计实现了面向终身学习的翻译系统。该系统融合基于数据融合和基于模型融合的终身学习机器翻译技术,结合知识发现、领域判别等特色技术,为用户提供了功能全面专业的领域翻译服务。在离线任务中,系统将不断学习新领域的翻译任务,并挖掘、保留该领域的知识;在线上服务中,用户可使用领域自动判别、领域知识展示和编辑、融合领域知识的翻译和更多翻译结果展示等服务。本文的面向终身学习的翻译系统具备良好的领域翻译能力,在相关测试集上各领域的平均BLEU值可达到27.42,总体知识翻译准确率达到96.98%。同时,本系统在多领域翻译场景下,还具备部署便捷和低成本、翻译结果领域相关性强、可持续学习等应用价值。
其他文献
随着移动设备兴起和人工智能的发展,基于传感器的人类活动识别已经有了较大发展,在医疗健康、智能家居以及交通运输等领域已经有了广泛应用。目前基于传感器的活动识别,现有工作没有很好地解决模型普适性差的问题,原本训练好的模型很难应对不同用户、不同佩戴方式以及不同设备的变化。另外现有活动识别方法主要针对闭集识别,传感器的开放式活动识别仅有少量研究,对于新加入的活动会将其误分类为已知活动。因此本文主要研究基于
学位
高重复频率激光器在光通信、精细加工、测量传感等领域具有广阔的应用前景。如在激光通信、时间分辨双光梳光谱、超快异步光学采样、高精度时频计量和非线性生物采样等众多方面表现出不可替代的应用价值。但是重复频率固定的激光器会存在使用频率不可变从而造成资源冗余以及频率切换复杂等弊端而限制了其应用范围。如何获得激光重复频率可变的高重频脉冲序列成为至关紧要的问题。由于光纤激光器光束质量好、结构简单、价格低廉因此被
学位
近年来,基于视频的人类行为识别受到计算机视觉领域研究者广泛关注。行为识别主要分为群体行为识别和个体行为识别。群体行为,即多个可数的人在一定的环境下执行的能够持续一段时间的交互性运动,它的识别在智能监控、体育运动分析以及视频字幕生成等方面有很高的应用价值。而个体行为,即单个人执行的持续一段时间的简单的运动,它的识别在安防、智能家庭监护以及视频内容检索等领域也有很多需求。目前,基于深度学习的行为识别方
学位
随着无线技术的发展,WiFi信号的获取变得更加方便快捷,因此利用WiFi信号完成室内WiFi定位任务逐渐成为了研究热点。由于WiFi信号的环境敏感性,当室内环境发生变化后,WiFi信号会随之改变,从而导致定位模型失效。若在新环境中重新采集数据进行训练,会极大消耗时间成本与人力成本。因此本文针对环境变化后的无接触定位问题进行研究探讨,提出能够应对环境变化的定位及其适应方法。本文首先对已有无线定位系统
学位
拍卖商城是一种以商品买卖为主,商品竞拍为辅的新型在线交易平台。随着近几年电子商务的飞速发展,越来越多的用户习惯在线交易和购物。这促使拍卖商城系统成为一个新的研究热点。当前绝大多数拍卖商城系统都是基于中心化组织架构设计的。由于过度依赖第三方,这些拍卖商城系统在数据的完整性、执行过程的透明性以及用户的隐私保护等方面存在严重的问题。区块链天然的去中心化特性吸引了越来越多的学者研究基于区块链的拍卖商城系统
学位
近年来,主动投资策略的投资组合在收益表现上水平参差不齐,不少投资组合表现水平远低于市场指数的平均水平,进而指数化的被动投资策略越来越被更多的投资者所青睐。本文主要利用深度学习自编码器构建指数跟踪的投资组合,实现用较少数量的指数成分股构建复制目标市场指数变化趋势和指数收益率的投资组合。通过设计并实现一套可视化的指数组合投资推荐原型系统,为金融投资者推荐可对不同市场指数进行跟踪的指数跟踪的投资组合,为
学位
致病菌耐药性的日益发展对人类健康造成了严重威胁。尽管常规抗生素在治疗细菌感染方面仍然发挥着至关重要的作用,但耐药微生物的出现和传播正在迅速降低抗生素的有效性。靶向细菌膜的两亲性聚合物被认为是一种可治疗细菌感染的替代抗菌试剂,这类聚合物具有快速的杀菌作用和较低的耐药性倾向。基于此,本文主要进行了以下研究工作:1、将胆固醇-乙二胺偶联物(Chol-NH2)和L-赖氨酸-N-羧酸酐(L-Lys-NCAs
学位
咔唑及其衍生物是一类五元氮杂环化合物,特殊的稠环结构使其具有独特的生物活性和光物理性质,在药物、农药以及材料等多个领域都有着广泛的应用,因此,开发新型咔唑及其衍生物的合成方法具有重要意义。目前报道最多的主要是通过吲哚的环化反应或联芳基化合物的C-H胺化反应来构建咔唑化合物。其中,钯催化联芳基卤化物与不同类型胺化试剂的分子间C-H胺化反应被证明是构筑咔唑的一种有效方法。然而,要想获得特定位点带有特定
学位
伴随现代电子通信行业的高速发展,迎面而来的挑战是可用的频谱资源愈发紧缺,因此频谱资源的利用率怎样提升就成为了很重要的研究方向。并且为了能够高质量传输信号需要做到良好的群时延,所以可重构线性相位接收前端具有重要的研究意义。本文的研究目标是研制一款C波段可重构线性相位接收前端,其中接收前端主要包括低噪声放大器以及可重构线性相位滤波器两个核心部件。通过对两个核心器件的分析研究,从而研制出一款能够在中心频
学位
二氧化碳(CO2)过度排放导致的环境和生态问题日益引起人们的关注。尤其是2020年我国首次提出CO2排放力争于2030年前达到峰值,努力争取2060年前实现碳中和的战略目标,因此开发高效CO2利用技术迫在眉睫。CO2具有无毒、易获得、廉价和可再生等优点,可作为C1原料参与化学反应。利用CO2和环氧化物环加成制备高附加值的环状碳酸酯是最有前景的CO2利用技术之一,且该反应100%原子经济,具有环保优
学位