面向统计机器翻译的领域自适应方法研究

被引量 : 2次 | 上传用户:bimzhouhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器翻译是目前主流的机器翻译方法,它以统计模型为基础,可以高效地获取翻译知识、快速地开发性能优良的翻译系统。但是当领域发生变化时,利用现有的统计机器翻译方法难以开发出令人满意的机器翻译系统。一方面,在中英科技文献领域应用统计机器翻译时,领域变化带来的中文分词精度的下降会给获取高质量翻译知识带来很大障碍;另一方面,新领域往往引入大量的特有词汇,造成翻译系统已有的翻译知识无法对其进行翻译。针对领域变化引起的问题,本文重点研究面向统计机器翻译的领域自适应方法,以提高翻译知识的质量和覆盖率。这些方法包括面向统计机器翻译的中文分词的领域自适应方法和复述技术的应用方法,都以提高统计机器翻译系统的领域自适应能力为目标。本文主要包括以下两方面工作:(1)针对领域变化引起的中文分词精度下降问题,本文提出了利用大规模生语料中n-gram统计特征的中文分词方法和基于平行语料引导的中文分词方法。在此基础上,本文提出了基于线性模型的多特征融合方法,将不同方法的分词结果进行融合,为不同领域中汉外统计机器翻译系统的开发提供了解决方案。实验结果表明,融合多种分词结果的方法在分词精度和统计机器翻译系统的翻译性能上均取得了提升。(2)对于新领域特有词汇降低统计机器翻译性能的问题,最直接的做法是增加短语表规模,提高翻译知识对新领域词汇的覆盖率,进而增强统计机器翻译的领域适应能力。大规模、高质量的平行语料库难以获得,直接扩充短语表规模的方法受到限制。针对此问题,本文提出了引入复述技术的统计机器翻译系统(复述是同语言同语义的不同表达方式)。其基本思想是:由于自然语言表达多样性的存在,短语表对语义的覆盖率一般高于对短语现象的覆盖率;通过将新领域特有词汇转化为短语表熟知的复述形式,统计机器翻译系统可以为其寻得合适的译文。具体实现中,本文利用第三种语言获取带有概率的复述短语表,用格图表示待翻译句子的多种复述形式,改进机器翻译解码算法使之能够处理格图形式的输入。实验结果表明,在不同规模的数据集上,引入复述特征的翻译系统性能普遍优于传统的统计机器翻译系统,并且系统鲁棒性较好。综上所述,为了提升统计机器翻译系统的领域适应能力,本文在翻译知识获取阶段和翻译知识应用阶段进行了改进。实验结果表明本文所提方法增强了统计机器翻译领域适应能力,带来了翻译性能的提升。
其他文献
目的探讨sunitinib对支气管哮喘(简称哮喘)气道重塑的干预作用及可能的作用机制。方法 18只BALB/c小鼠随机分为对照组、哮喘组以及sunitinib组,每组6只;以卵清蛋白(OVA)致敏、激
特殊教育学校教师与普通学校教师相比,由于面向的对象不同,具有很多不同的工作特点,承受着普通教师无法想象的精神压力和工作难度,在专业化方面有其独特要求,'工作-家庭
WC-Co系硬质合金具有高硬度、高耐磨性及良好的红硬性等优异的性能,因而广泛的应用于机械加工、地质勘探、矿山开采等工业领域。由于硬质合金制品存在尺寸有限、形状简单、成
我国建筑领域不断改革,全面推行各类管理制度落地,工程建设监理是保证建筑质量与安全的前提,只有全面执行好监理制度,发挥监理作用,才能建设出优质项目工程。文章主要通过对
定向凝固技术在制备高临界电流密度的YBa2Cu3O7-δ(简称YBCO或Y123)高温超导体上的成功表现,使得利用此技术制备具有强各向异性的高温超导体的研究受到了高度重视。本文系统研
对武校留守儿童群体的自我与他者认同、群体社会化以及武术文化的传承与表达进行研究。发现城市化进程的加速推进,是导致武校留守儿童现实中的家不再具有完整性的直接原因。
近年来新兴的电压力锅是电饭锅的升级换代产品。它集电饭锅、压力锅、焖烧锅的功能于一体,可煮、蒸、焖、炖等。由于电压力锅具有安全、快捷、卫生、节能、方便的优点,它逐步取
本量利分析是现代企业管理的重要分析工具,如何运用本量利分析进行企业决策,是在企业管理中普遍关心的问题。本文通过分析阐述了本量利相关理论在企业短期经营决策中的应用及
随着社会经济的不断发展,展会作为现代企业市场推广的重要手段之一,已越来越受到企业家及管理者的关注和重视,本文主要分析展会在企业营销战略中的作用及给出有效地企业参展
<正> ……有一些书,人们无法避开它们,它们一下子就征服了读者;而有一些书,它们的权威是慢慢地显露出来的。《鼠疫》无疑属于第二类。加缪也希望它这样。在某种意义上说,也应
期刊