层次短语翻译模型研究和改进

来源 :厦门大学 | 被引量 : 0次 | 上传用户:wwvicky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是应用电子计算机实现从一种自然语言到另外一种自然语言的翻译。它属于计算语言学的范畴。经过几十年的发展,机器翻译在理论和实践方面都取得了非常大的进展,基于统计的方法是当前机器翻译的主流方法。   David Chiang提出的层次短语模型已成为统计机器翻译中的主流模型之一,它在短语模型的基础上引入了非终结符,使模型具有了泛化能力,突破了短语模型只允许完全子串匹配的局限;它引入了层次短语,使模型具有了较好的远距离调序能力。   层次短语翻译模型在取得巨大成功的同时,也具有明显的缺点,本文针对层次短语模型的不足进行改进,主要做了以下三点工作:   一针对层次短语模型的层次规则抽取方法简单,存在大量无用,不合理的层次规则,造成模型规模庞大,解码费时与解码错误的问题,本文探讨了基于泛化能力的规则约束策略,通过是否具有泛化能力来衡量一条层次规则的有用性,过滤掉无用的层次规则。   二针对层次短语模型解码过程中很多不合理规则的使用造成解码空间急剧扩张、在耗费大量解码时间的同时,造成解码错误的问题,我们对基于句法分析的层次短语模型解码优化做了初步的探讨,提出了使用句法信息限制不合理规则的使用的解码约束策略。   三针对层次短语模型中只含有一个变量,在解码过程中,除词汇化信息外,并无更多的信息来明确层次规则的适用对象,容易造成解码错误的问题,我们提出了一个层次短语模型变量扩展框架,并在此框架下提出了一个初步的层次短语模型变量扩展方案。   实验证明,本文所提出的方法能在加快解码速度的同时,改善翻译效果,因此是有效的。
其他文献
目前,离线编程的广泛使用使得机器人的工作效率大大提高,同时激光视觉传感器在焊接中扮演越来越重要的角色,然而许多离线编程系统中并没有引入激光视觉传感器,不能对传感器进
根据生态系统中物种间的关联性以及物种跟环境的连接而衍生形成的智能优化算法——协同进化算法(co-evolution algorithm,简称CEA)被提出。它是一种新型的进化算法框架。自从C
旋转零件的圆度和圆柱度对高速、高精度旋转机械的运动精度和平稳性影响较大,因此这种类型零件的圆度和圆柱度的高精度现场检测成为关键。为此需要开发成本低、精度高、且使用
DNA微阵列技术的发展带来了大量的基因表达数据,分析和挖掘这些数据背后所蕴含的知识是目前生物信息学研究的一个热点。作为最基本的数据挖掘方法,分类在基因表达数据的分析中
算法作曲是人工智能领域中一个重要的研究方向,而为歌词配主旋律是其中一个十分具有挑战性和现实意义的研究分支。   本文把为歌词配主旋律看作是类似机器学习的一项任务,通
目前,电力远程监控SCADA系统中,主要完成遥控、遥信、遥调、遥测的数据传输。随着监控技术的应用深入,视频信息对配电信息的综合判断显得越来越重要。当变配电站出现故障的时候,
20世纪90年代以来,随着信息科学技术的发展,尤其是以TCP/IP为基础的互联网取得了巨大成就后,人类活动开始步入了网络时代。从Internet到WWW,从大型电力网络到全球交通网络,从社会
近年来,随着近代陶瓷工业技术的不断发展和人民生活水平的日益提高,陶瓷墙地砖已经成为人类生产生活和现代化建设中不可缺少的材料之一。但是由于陶瓷坯泥在真空练泥机中受力不
切换区间系统是一类系统矩阵为区间矩阵的切换系统,它既具有区间系统的参数不确定特性,又具有切换系统的特性,比一般的切换系统更具复杂性。另一方面,在许多实际的控制系统中,大量
在自然界,有许多生物,根据空气中的化学信息或者说气味来寻找配偶、发现猎物、搜寻食物、躲避天敌等。此外,由于全球空气污染越来越严重,人类频频受到有害、有毒气体泄漏事故的侵