基于层次短语的统计翻译引擎的设计与实现

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:limihu93
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻详是自然语言处理中研究的一个重要课题。近年来统计机器翻译的研究占据了机器翻译研究的主流地位。而且统计机器翻译经历了从词到短语,从使用表层字符串信息到使用句法结构信息的演化。在这个过程中的每一步,都试图向翻译模型中纳入更多的上下文信息或重排序信息,以获得翻译质量的提升。基于层次短语的翻译模型是一种效果较好的翻译方法,它结合了基于短语的翻译模型和同步上下文无关文法的优点。本文研究了基于层次短语的翻译引擎的设计和实现方法,并对其规则冗余问题进行了探讨。   本文的主要工作归纳如下:   ①设计实现了一个基于层次短语的统计机器翻译引擎。以汉英翻译为例,与普通的基于短语的机器翻译系统相比,该引擎的翻译质量有显著提升。尤其是在翻译需要长距离重排序的句子时获得了比较好的结果。   ②提出了一种从双语对齐语料中获得层次短语的算法,该算法使用基于扫描线的方法,在对源语言训练句子的一次扫描过程当中得到层次短语规则,简单易于实现。而且实验表明该方法在计算时间方面具有良好的表现。   ③基于层次短语的翻译系统面临的一个问题是训练得到的翻译规则的数量远超过普通的基于短语的翻译系统,从而导致了计算代价的攀升。本文探讨了基于层次短语的翻译系统中冗余规则的精简问题,提出了一种基于“重排序分割点”的约束方法,有效减少了系统中使用的规则数量,系统的训练时间和解码时间也随之大大减少。
其他文献
在数字资源不断增长的今天,跨库检索系统将众多异构、分散的信息资源整合起来,解决了资源独特性与用户需求同一性之间的矛盾,为用户提供了统一的检索接口,提高了资源利用效率。与
无线传感器网络是一种由部署在监测区域内大量的廉价微型传感器节点组成,是一种新型的无线网络,能够协作地实时监测、感知和采集各种环境或被监测对象的信息,对其进行处理并
高速串行传输(SerDes)是目前缓解计算机系统中带宽瓶颈的一种关键技术。均衡器作为高速串行传输系统中消除码间干扰,提高传输速率的关键模块,越来越多的应用在实际的系统中。本
网格作业管理服务是网格系统软件的重要组成部分,负责屏蔽网格结点计算资源的异构性与自治性,管理网格作业的全生命周期,并为用户提供标准、高效、易用的网格作业功能接口。
随着计算机应用的普及和信息化的推进,越来越多的企事业单位将他们的企业管理、决策分析以及公司业务等转移到了计算机平台上。为了使信息的传递更加快捷和方便,减少不必要的人
随着多媒体技术的成熟和因特网技术的发展,流媒体已经成为互连网上极为重要的应用之一。但是,随着用户数量的增加、用户需求的提高,传统的流媒体系统不能很好的满足用户的需
虚拟手术系统是仿真技术在医学中的重要应用,基于临床的CT数据,它能真实地重建出感兴趣组织的三维空间立体结构,对复杂手术过程进行反复演练和模拟,让医生合理准确地制定个体化的
我国的应急信息平台在国务院及地方各级政府统一规划下,依托现有的电子政务网,整合现有应急资源,建成信息开放和资源共享的服务和信息平台,应急各类技术标准亟待开发。应急预案是
随着计算机网络技术的迅速发展,如何对网络环境中的用户进行有效的管理是一个相当复杂和繁琐的问题。特别是在网络科研协同服务环境中,由于用户和信息资源数量巨大,如何让合法的
目前软件工业界面临着产品功能越来越复杂和推出产品周期越来越短的双重压力。软件工程的一个主要目标就是在软件复杂性增加的情况下仍能构造正确可靠的系统,达到这一目标的