统计机器翻译中领域自适应问题研究

被引量 : 0次 | 上传用户：wuan461618

【摘要】

：

步入21世纪,人类进入互联网时代,急剧增加的网络信息和日益频繁的跨语言交流都极大地扩大了对翻译的需求。鉴于传统基于人工翻译的途径在规模和效率两方面都已经无法满足现有

【作者】

：

赵迎功

【发表日期】

：

2015年期

【关键词】

：

统计机器翻译领域自适应神经网络话题模型直导式学习交叉熵

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

步入21世纪,人类进入互联网时代,急剧增加的网络信息和日益频繁的跨语言交流都极大地扩大了对翻译的需求。鉴于传统基于人工翻译的途径在规模和效率两方面都已经无法满足现有需求,人们迫切希望利用计算机实现自动的翻译,这使得机器翻译技术受到了越来越多的重视。在目前诸多机器翻译方法中,基于统计的机器翻译方法因其强大的学习能力以及较高的翻译效率而得到了广泛的应用。统计机器翻译系统基于统计学习方法从大量平行语料中学习翻译知识,从而实现翻译任务。目前主流的统计机器翻译系统都是基于对数线性模型构建的,其中翻译系统的模型部分(翻译模型和语言模型)均基于训练数据构建,系统的权重基于开发数据调整,而最终的系统性能则通过测试数据评价。然而,当前机器翻译的研究及应用往往面临着训练数据与开发数据之间以及开发数据与测试数据之间的领域不一致问题,这就导致了翻译系统的模型以及权重的不准确,进而影响到翻译系统的性能。本文针对上述领域不一致问题展开领域自适应研究。主要工作包括：一、针对训练和开发数据之间的领域不一致问题,本文提出了基于低维词向量表示的神经网络模型自适应方法,克服了传统的基于离散词汇表示的自适应方法所面临的参数稀疏和开销大的问题。在使用神经网络模型直接解码的框架下,本文针对隐式和显式两种类型的领域信息分别提出了模型自适应的解决方案：1.利用隐式领域信息的模型自适应。本文利用规模较小的领域内开发数据对基于前向反馈神经网络构建的语言和翻译模型做微调,使得原本仅依赖训练数据的模型包含了开发数据的领域信息,从而在翻译过程发挥更大的作用。2.利用显式领域信息的模型自适应。本文在前向反馈神经网络语言模型中加入显式的篇章话题信息,从而使得翻译系统能够根据领域信息生成更合适的翻译结果。二、针对开发和测试数据之间的领域不一致的问题,本文针对静态和动态两个方面提出了解决方案：1.在静态开发数据的场景下,机器翻译系统使用的开发数据固定不变。本文提出了利用测试数据信息对原有权重进行调整的权重自适应途径,即基于交叉熵的语言模型权重调整和直导式最小错误率权重训练两个途径。上述方法都克服了传统权重完全依赖开发数据所导致的权重偏差问题。2.在动态开发数据的场景下,机器翻译系统可以根据需要选取开发数据。本文提出了基于数据向量表示的相似度选取开发数据选取以调整权重的自适应方法。本文使用了数据翻译结果的得分向量作为其表示,从给定的候选开发数据中选取与测试数据接近的部分作为新的开发数据做权重调整。本方法克服了传统基于经验的数据选择方法因缺乏定量相似度衡量而无法通用的问题。论文的实验结果表明：在模型自适应方面,本文提出的基于神经网络的自适应方法能够有效地将不同类型的领域信息编码到模型中,在克服传统方法存在的问题的同时,显著地提升了翻译系统的性能；在权重自适应方面,本文提出的两个场景下的自适应方法都能够针对测试数据有效地调整权重,从而较好地保障了翻译系统在测试数据上的性能。

其他文献

双逆变方波焊接磁搅拌装置的研制及应用

电磁作用焊接技术是近年来完善起来的一种新的焊接技术,应用也日趋广泛。焊接磁搅拌装置作为电磁作用焊接技术研究中的关键设备,对于材料加工过程的机理研究和质量控制有着直

学位

电磁搅拌装置双逆变纵向磁场

超疏水生物水面超大承载机制及其仿生研究

润湿性是固体表面的一个重要特征,润湿性可用表面水滴的接触角表征,超疏水是指固体表面上水滴的接触角超过150°的特殊现象。荷叶、水黾等生物经过亿万年进化,其体表的超疏水

学位

超疏水水面承载力承载系数表面张力浮力水涡仿生

上海某综合医院老年住院患者精神病学联络会诊现状

目的:了解综合医院老年住院患者精神医学联络会诊的特点。方法:回顾性分析1年间老年科住院患者精神病学联络会诊资料,并分析。结果:176例次精神科联络会诊对象共100例患者,平

期刊

会诊联络精神医学老年神经认知障碍精神药物

血浆HSP60和TSGF联合检测甲状腺癌的早期诊断价值

目的:究血浆热休克蛋白-60(HSP60)与肿瘤特异性生长因子(TSGF)联合检测对甲状腺癌的早期诊断价值。方法:于2011年1月~2015年11月期间选取254例甲状腺癌患者(定为甲状腺癌组)

期刊

甲状腺癌HSP60TSGF联合检测早期诊断

内蒙古大学生睡眠质量和睡眠规律性调查研究

维系高质量的睡眠以及睡眠与觉醒自然交替的正常节律，对于保障身心健康和正常工作学习至关重要。据报道１５％～３０％的成人和１０％～２３％的青少年中有不同程度的入睡、再入睡困难及早醒等睡眠质量问题

期刊

睡眠质量入睡困难内蒙古

出口退税政策与我国出口商品结构优化——基于不同技术程度行业的研究

本文基于不同技术程度行业考察了2001年1月至2008年8月我国出口退税政策对出口商品结构影响的实际效应。研究得出了以下结论:(1)出口退税政策对我国出口商品结构中初级产品行

期刊

出口退税出口商品结构初级品行业劳动密集型行业高新技术行业

某省电力公司客服系统网站建设方案

某省在推出"95598"电话客户服务系统的基础上,决定建设全新的综合性电力客服网站。本文从网站的总体规划、技术体系、功能设计、软硬件配置及安全策略全面的提出该网站的建设

期刊

电力公司95598客服网站接口策略

浅论社会语言学视域中的网络语言

语言是社会的一面镜子,网络近二十年迅速普及,"网络语言"的出现和流行就是当前社会各界尤其是语言学界较为关注的一个话题。网络语言是在特定的语言社区里出现的一种新的语言

期刊

社会语言学网络语言特征

微博的历史、现状与发展趋势

2010年被称为中国微博元年,作为一种新兴的媒介,微博不仅在中国社交网络中占据领先地位,更成为中国最具影响力的媒体之一,它以"碎片化"的信息渗透到社会生活的众多领域,掀起

期刊

实名认证影响力信息传播现状与发展趋势

脑梗死危险因素与微观辩证及益气活血法疗效机理研究

脑梗死是最常见的一类脑血管疾病，本文从中医文献、临床病证调查、临床疗效研究及动物实验四个方面对其进行了较为系统的研究。 1.通过对脑梗死的病因病机及证治规律的文献

学位

脑梗死微观辨证芪龙脑安气虚血瘀益气活血法脑缺血再灌注损伤

统计机器翻译中领域自适应问题研究

与本文相关的学术论文