基于短语与句法结合的统计机器翻译的研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:rockyin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球化程度的提高,世界各国之间的各种交流越来越频繁,语言是最直接的交流方式,机器翻译就是研究如何利用计算机实现一种语言文本到另一种语言文本的翻译。过去几十年中,统计翻译方法成为研究的热点,翻译模型也从基于词的模型发展为基于短语的模型,并在近期的国际翻译评测中取得了领先的成绩,成为统计机器翻译的先进的技术,但基于短语的翻译依然存在数据稀疏、长距离重排序等问题,近来研究者试图在翻译中引入语言学知识来解决这些问题,基于句法的翻译越来越引起研究者的浓厚兴趣,而在基于语法的翻译中融入基于短语翻译的优点也成为大家的共识,本论文正是研究基于短语与句法结合的翻译中的关键技术,并通过各种实验探讨各种技术对翻译质量的影响,论文的工作归纳如下:   1.提出了一种基于双向裁剪的翻译模型。   翻译模型是统计机器翻译的核心,它直接影响着翻译质量。在基于词的基准统计翻译系统中,本文提出利用源语言与目标语言双向翻译概率进行平滑训练,得到最终的基于词的翻译模型。本文提出的模型有助于消除单向IBM翻译模型训练中噪声的影响,在实验中BLEU得分提高了0.009。   2.提出了一种“空扩展”柱搜索算法。   在基于短语的统计翻译中,由于语言知识的差异,中文翻译成英文时,某些目标语言词需要被补充,这些出现频率很高且在IBM翻译模型中对空的词称为Fzerwords,对应于Fzerwords的路径扩展称为“空扩展”,论文解码时采用了“空扩展”柱搜索算法,这种搜索算法使Fzerwords修正了翻译结果,实验中使得翻译结果的BLEU得分提高了0.01以上。   3.提出了一种基于多特征融合的翻译模型训练方法,并提出通过提取短语模板对短语进行泛化,解决数据稀疏与重排序问题。   论文提出利用四种特征融合训练翻译模型,并与其它模型以log-linear形式结合,通过最小错误率训练特征系数;为了解决翻译中的重排序与数据稀疏问题,论文提出通过提取包含命名实体的N类模板与非命名实体的X类模板,对原始的短语进行泛化,部分的解决了短语间的重排序问题。   4.提出了基于串到树对齐模板的翻译模型,通过提取三类串到树对齐模板来解决翻译中源语言词到目标语言词的转换及重排序问题。   通过对目标语言进行句法分析,本文提出抽取并训练三种串到树对齐模板:对应于源语言词串与目标语言子树的翻译模板TransTemplatel、源语言与目标语言子树都由终结符与非终结符构成的模板TransTemplate2、至少一端只由非终结符构成的重排序模板ReorderTemplate,三种模板都具有语言学信息,论文利用三种模板解决短语内部及高于原始短语层次的长距离重排序问题,从而使翻译结果更符合语言学的要求。   5.论文提出了融入串到森林对齐模板的串到树对齐翻译模型。   通过对串到树对齐模板的扩展,融入了串到森林对齐模板。串到森林模板通过描述串和多个子树之间的对齐关系来捕获非句法短语,使串到树翻译的功能进一步增强,论文还进一步讨论了串到树模板与分层短语的融合。   本论文在基于短语与句法结合的翻译中,对翻译模型的训练、重排序问题、语言学知识的引入等问题进行了探讨与研究,通过实验证明了各种技术对翻译性能的提高,为进一步研究各种翻译方法的融合打下了基础。
其他文献
数字图像信息隐藏是近年来提出的一种有关数字图像信息安全的新问题,它主要研究数字图像的隐藏、数字水印、以及攻击和抗攻击等,其目的是对数字图像进行隐蔽传输和安全存储。对
微操作机器人具有位移精度高、定位精准、操作精密等特点,能够协助或代替人将工作空间从宏观领域拓展到微观空间领域。目前,微操作机器人成为机器人研究领域的一个重要分支,得到
学位
学位
目标的自动识别是计算机视觉的一个基本问题,对一些重要的地面目标的自动识别在民用及国防中都有着重要的意义。而图像分割技术历来都是自动目标识别(ATR)乃至整个图像处理领
武器装备发展是一项复杂的系统工程。未来作战需求的不确定性、武器装备体系的复杂性、武器装备需求问题边界的模糊性、需求分析过程和方法的不确定性等问题,使得武器装备的需
学位
人脸识别技术是指利用计算机分析人脸图像,从中提取出有效的识别信息,并用以辨认身份的一门技术。在过去的几十年中,人脸识别技术已经成为计算机视觉、模式识别和人工智能领域的
学位
随着我国收入分配格局的变化,社会机构的投资管理需求不断增加,社保基金、企业年金、保险资金等机构的委托投资规模逐年递增。同时,家庭财富也得到了巨大的积累,使国内居民具有一