递归柱搜索解码算法及其应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:cj1314810814
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是将一种自然语言翻译成另一种自然语言。机器翻译的方法有很多种,主要包括基于规则的,基于实例的和基于统计的方法。统计机器翻译近些年来在机器翻译领域取得了较大的进展,由于在处理大规模语料时所具有的明显优势和在多次公开机器翻译评测中所取得的突出成绩,这种方法已成为国内外机器翻译研究的热点。 本文首先介绍了机器翻译的历史,主要方法及统计机器翻译的三个主要模块:语言模型,翻译模型,解码模型。在统计机器翻译方法中,解码模型的设计占有非常重要的位置,通常采用柱搜索算法来实现,其核心思想是在搜索过程中利用动态规划方法不断地扩展出所有可能的翻译状态,直到翻译完成。虽然实验证明柱搜索算法可以获得较好的的翻译结果,但它在翻译过程中不能充分利用带变量的短语。带变量短语具有较强的泛化能力,在实际的自然语言中也被广泛使用,对提高机器翻译的质量具有重要作用。因此,本文提出了一种递归柱搜索算法,以便在机器翻译的实践中有效地利用带变量短语。递归柱搜索算法的实质是将递归的思想引入柱搜索解码算法中,通过对不连续短语中的变量部分进行递归式分析,实现对带变量短语的翻译。 其次,本文利用已有的汉英双语语料库,设计并实现了一个汉英翻译系统,其中的主要工作包括:双语语料库的预处理和对齐训练,短语、短语模板的自动提取及概率计算,以及递归柱搜索算法的设计和实现。此外,本文还对递归柱搜索算法和柱搜索算法的翻译结果进行了对比实验和比较分析。 最后,本文讨论了机器翻译的人工评测和自动评测方法,并给出了所实现的汉英翻译系统在参加2007年度第三届中国统计机器翻译研讨会时的评测结果,其中包括BLEU和NIST得分。
其他文献
业务需求的变更是令很多企业非常头痛的事情,经常改变的政策、业务级别、业务重点、合作伙伴关系等,都会导致软件平台的一次大规模的修改。SOA凭借其松耦合的特性,可以适应不
我国电子政务工程的开展,使得政务信息化的程度不断提高,政府部门掌握了越来越多的关于各产业发展的信息数据。某省明确提出工业强省以实现后发赶超的战略口号,高技术产业的
SIP技术已经成为VoIP的一种发展趋势,但该技术在应用中存在一个急需解决的问题:基于C/S的体系结构,使中心服务器负载过重,无法保证通话质量。简要分析了P2P网络拓扑结构之后,
手机游戏已经成为大众消磨时间的主要方式,不管是在公交车上、地铁上或是休息区,都可以看到有很多人低着头,脸上反射出电子屏幕的光线。在当代社会手机用户基数巨大,产品更新
静电纺丝是目前获得超细纤维的一种重要方法。静电纺丝过程是将具有一定粘度的高分子溶液置于带有金属毛细管喷头的装置中,在高压电场的作用下,处于喷口的液滴克服表面张力形
软件技术的迅速发展,促使服务的类型和数量不断增加,造成网络上存在大量动态、异构的服务资源。如何将这些资源有效组织,完成功能更强大、更完整的应用需求,成为当前服务组装
开展基于乳腺X影像的乳腺普查工作是早期检测乳腺癌病变、减少死亡率的重要手段。基于乳腺X影像的计算机辅助诊断技术是当前国外研究的热点,也是难点。当前主流的计算机辅助
制造技术水平的不断提高和日趋激烈的市场竞争,使制造业的发展日益呈现出全球化、网络化的特点。在这种情况下,产品设计过程也越来越快地向跨企业、跨系统、跨地域的方向发展,从
目前,信息系统在广泛的领域得到的应用,相应的出现了多种类型的系统,开发了多种多样的方法和途径来设计这些信息系统。由于办公自动化的工作是信息系统应用领域发展最快的,在最近