面向短语统计机器翻译解码算法的研究

被引量 : 2次 | 上传用户:liubingonline
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自上世纪90年代以来,统计机器翻译取得了飞速发展,并逐渐成为了机器翻译研究领域的核心内容。在此期间,学者们提出了多种统计机器翻译模型,包括基于词的、基于短语的、基于层次短语的和基于句法的统计机器翻译模型。而基于句法的统计机器翻译模型又可细分为基于树到串、串到树和树到树的统计机器翻译模型。在众多的统计机器翻译模型中,基于短语的统计机器翻译模型应用最广。因为它具有较高的翻译性能,并且在多种不同语言对之间的翻译任务中显示了较高的鲁棒性。基于短语的统计机器翻译模型和其它统计模型一样也是数据驱动的模型。它从双语语料中自动学习翻译知识,并最终用于翻译任务中。一个完整的基于短语的统计机器翻译系统往往包括数据预处理、词对齐、短语抽取、短语打分、解码器、参数优化器和数据后处理等重要模块。在这些模块中,短语抽取和短语打分模块从双语语料中自动获取短语翻译表作为翻译知识,参数优化器被用来优化模型参数,而解码器则被用来完成对源语言句子的翻译。系统的翻译性能通常用BLEU值作为评价指标。可以看到,在一个翻译系统中,解码器是真正用来完成翻译任务的核心模块。解码器的好坏一定程度上决定了系统的翻译性能和解码速度。到目前为止,学者们提出了各种可适用于短语统计机器翻译模型的解码算法。这包括基于栈的解码算法、Cocke-Younger-Kasami (CYK)解码算法和移进-归约解码算法等。考虑到翻译性能和解码速度,这些解码算法各有不同的优缺点。基于栈的解码算法和CYK解码算法一般具有较高的翻译性能,但解码速度较慢;而移进-归约解码算法往往可以达到较高的解码速度,但翻译性能较低。本文详细地介绍了以上几种解码算法,并经验性地比较了它们在翻译性能和解码速度上的表现。由于某些应用同时对翻译性能和解码速度的要求较高,而现有的解码算法往往不是速度不够快,就是性能不够好,本文为此提出了一种混合解码策略。该策略结合CYK解码算法和移进-归约解码算法,使用移进-归约解码算法解码用标点符号分隔的子句,并用CYK解码算法组合子句的翻译,从而生成最终的翻译结果。实验证明该方法能较好地在翻译性能和解码速度之间找到一个平衡,满足某些应用对这两方面的综合考虑。
其他文献
射频识别(RFID)技术是一种无接触的自动识别技术,其可以通过射频信号识别特定目标并对其读写相关数据。其中超高频(UHF) RFID具有识别距离远,阅读速度快,且能适应多标签识别等优点,因
地方政府对于GDP的竞争在我国是一个普遍现象,这种竞争在一定程度上促进了经济的增长,但对公共服务的供给会产生怎样的影响呢?财政联邦主义传统观点认为,地方政府间的非合作行为
近年来汉语在柬埔寨应用的不断扩展的原因主要体现在以下方面:华人华侨人口数量增加;中国来柬旅游业的发展以及中国企业在柬的投资增加;中国对柬援助的增加;孔子学院在柬埔寨的建
根据瑞士再保险Sigma数据显示,2013年全球因自然灾害及人为灾害导致的经济损失总额达到1,300亿美元,全球保险公司受损达440亿美元,但是由于全球再保险市场的存在,保险总体承保能
神话是民间艺术形式的一种,是古代人民在对自然认识水平有限的情况下,对其所接触的自然现象、社会现象,幻想出来的具有艺术意味的解释和描述的集体口头创作,包括神鬼故事和神
本文深入剖析了美国震颤派家具风格形成的历史文化背景和思想根源,从设计学角度解读了震颤派风格家具的设计指导思想,设计上追求一种自我完善、尽善尽美的思想境界,体现尊重
2014年被业内确定为媒介融合元年,媒介融合作为一种不可逆转的大趋势,已经深刻地改变了既有的信息传播方式和阅读方式,并对报纸新闻形成了新一轮的冲击和挑战。为了更好地应对发
结肠癌是当今人类社会最常见的恶性肿瘤之一。据统计结肠癌发病率在所有肿瘤中排列第五位,而死亡率更是高居第三位,严重威胁人类的生命健康。目前结肠癌的治疗方式主要为手术
[研究目的]了解中老年人的腰椎、股骨的骨密度特点,分析出其可能的变化规律,指导防治;初步探讨原发性骨质疏松症的中医证型分布,同时联合骨密度指标,尝试挖掘二者间的对应规律
上世纪80年代末90年代初,随着国外户外广告材料高端品牌的进入,中国企业陆陆续续开始了自己的生产以及国内外销售.经过了几年的发展,伴着技术的进步,质量的越加稳定,价格的优