统计机器翻译中领域自适应问题研究

被引量 : 0次 | 上传用户:wuan461618
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
步入21世纪,人类进入互联网时代,急剧增加的网络信息和日益频繁的跨语言交流都极大地扩大了对翻译的需求。鉴于传统基于人工翻译的途径在规模和效率两方面都已经无法满足现有需求,人们迫切希望利用计算机实现自动的翻译,这使得机器翻译技术受到了越来越多的重视。在目前诸多机器翻译方法中,基于统计的机器翻译方法因其强大的学习能力以及较高的翻译效率而得到了广泛的应用。统计机器翻译系统基于统计学习方法从大量平行语料中学习翻译知识,从而实现翻译任务。目前主流的统计机器翻译系统都是基于对数线性模型构建的,其中翻译系统的模型部分(翻译模型和语言模型)均基于训练数据构建,系统的权重基于开发数据调整,而最终的系统性能则通过测试数据评价。然而,当前机器翻译的研究及应用往往面临着训练数据与开发数据之间以及开发数据与测试数据之间的领域不一致问题,这就导致了翻译系统的模型以及权重的不准确,进而影响到翻译系统的性能。本文针对上述领域不一致问题展开领域自适应研究。主要工作包括:一、针对训练和开发数据之间的领域不一致问题,本文提出了基于低维词向量表示的神经网络模型自适应方法,克服了传统的基于离散词汇表示的自适应方法所面临的参数稀疏和开销大的问题。在使用神经网络模型直接解码的框架下,本文针对隐式和显式两种类型的领域信息分别提出了模型自适应的解决方案:1.利用隐式领域信息的模型自适应。本文利用规模较小的领域内开发数据对基于前向反馈神经网络构建的语言和翻译模型做微调,使得原本仅依赖训练数据的模型包含了开发数据的领域信息,从而在翻译过程发挥更大的作用。2.利用显式领域信息的模型自适应。本文在前向反馈神经网络语言模型中加入显式的篇章话题信息,从而使得翻译系统能够根据领域信息生成更合适的翻译结果。二、针对开发和测试数据之间的领域不一致的问题,本文针对静态和动态两个方面提出了解决方案:1.在静态开发数据的场景下,机器翻译系统使用的开发数据固定不变。本文提出了利用测试数据信息对原有权重进行调整的权重自适应途径,即基于交叉熵的语言模型权重调整和直导式最小错误率权重训练两个途径。上述方法都克服了传统权重完全依赖开发数据所导致的权重偏差问题。2.在动态开发数据的场景下,机器翻译系统可以根据需要选取开发数据。本文提出了基于数据向量表示的相似度选取开发数据选取以调整权重的自适应方法。本文使用了数据翻译结果的得分向量作为其表示,从给定的候选开发数据中选取与测试数据接近的部分作为新的开发数据做权重调整。本方法克服了传统基于经验的数据选择方法因缺乏定量相似度衡量而无法通用的问题。论文的实验结果表明:在模型自适应方面,本文提出的基于神经网络的自适应方法能够有效地将不同类型的领域信息编码到模型中,在克服传统方法存在的问题的同时,显著地提升了翻译系统的性能;在权重自适应方面,本文提出的两个场景下的自适应方法都能够针对测试数据有效地调整权重,从而较好地保障了翻译系统在测试数据上的性能。
其他文献
电磁作用焊接技术是近年来完善起来的一种新的焊接技术,应用也日趋广泛。焊接磁搅拌装置作为电磁作用焊接技术研究中的关键设备,对于材料加工过程的机理研究和质量控制有着直
润湿性是固体表面的一个重要特征,润湿性可用表面水滴的接触角表征,超疏水是指固体表面上水滴的接触角超过150°的特殊现象。荷叶、水黾等生物经过亿万年进化,其体表的超疏水
目的:了解综合医院老年住院患者精神医学联络会诊的特点。方法:回顾性分析1年间老年科住院患者精神病学联络会诊资料,并分析。结果:176例次精神科联络会诊对象共100例患者,平
目的:究血浆热休克蛋白-60(HSP60)与肿瘤特异性生长因子(TSGF)联合检测对甲状腺癌的早期诊断价值。方法:于2011年1月~2015年11月期间选取254例甲状腺癌患者(定为甲状腺癌组)
维系高质量的睡眠以及睡眠与觉醒自然交替的正常节律,对于保障身心健康和正常工作学习至关重要。据报道15%~30%的成人和10%~23%的青少年中有不同程度的入睡、再入睡困难及早醒等睡眠质量问题
本文基于不同技术程度行业考察了2001年1月至2008年8月我国出口退税政策对出口商品结构影响的实际效应。研究得出了以下结论:(1)出口退税政策对我国出口商品结构中初级产品行
某省在推出"95598"电话客户服务系统的基础上,决定建设全新的综合性电力客服网站。本文从网站的总体规划、技术体系、功能设计、软硬件配置及安全策略全面的提出该网站的建设
语言是社会的一面镜子,网络近二十年迅速普及,"网络语言"的出现和流行就是当前社会各界尤其是语言学界较为关注的一个话题。网络语言是在特定的语言社区里出现的一种新的语言
2010年被称为中国微博元年,作为一种新兴的媒介,微博不仅在中国社交网络中占据领先地位,更成为中国最具影响力的媒体之一,它以"碎片化"的信息渗透到社会生活的众多领域,掀起
脑梗死是最常见的一类脑血管疾病,本文从中医文献、临床病证调查、临床疗效研究及动物实验四个方面对其进行了较为系统的研究。 1.通过对脑梗死的病因病机及证治规律的文献