面向大规模双语语料的层次短语统计机器翻译技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yuanlaiyizhizailiula
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,层次短语翻译系统逐渐成为实用的统计翻译系统之一。通过引入形式化的句法结构,层次短语翻译系统能够有效处理短语翻译系统所面临的长距离调序、规则泛化等问题。由于层次短语翻译模型在训练时不需要引入任何句法知识,因此特别适合构建面向大规模数据的统计翻译系统。随着计算机技术的不断发展以及翻译语料规模的逐渐增加,构建面向大规模双语语料的层次短语翻译系统不仅成为研究的热点,而且具有一定的实用意义。  然而,在构建面向大规模双语语料的层次短语翻译系统过程中仍然面临着不少问题:1)训练层次短语翻译模型的互联网语料包含较多噪声信息,直接使用这种语料有时容易导致翻译性能降低。2)启发式的层次短语模型训练方法生成较多冗余和错误的规则。这些规则不仅增加了系统存储的压力,而且容易产生错误译文。3)层次短语规则之间缺乏一定的上下文信息,在句子结构复杂的情况下很难得出正确的翻译结果。4)层次短语规则在泛化时缺乏一定的语言学约束,产生较多不符合实际语法的翻译规则,造成系统解码路径的选择困难。5)传统语言模型查询效率较低,难以满足大规模层次短语翻译系统对模型查询的需求。6)随着双语语料的增加,层次短语翻译系统的搜索空间逐渐扩大,因此对系统的准确性和实时性都提出更高的要求。  为了解决上述问题,本论文分别从平行语料获取、翻译模型优化、语言模型优化以及解码器优化角度出发,重点研究面向大规模双语语料的层次短语翻译系统优化方法。论文的主要研究内容包括如下部分:  1、提出基于强制解码的平行语料获取和翻译模型训练优化方法  本文采用强制解码的方法从包含噪声信息的双语语料中获得对齐质量较好的平行语料。该方法可以直接从双语句子中定位平行片段,极大地扩展了双语语料的获取范围。其次,针对启发式层次短语模型训练方法存在的规则冗余和概率估计问题,本文提出采用强制解码的方法对层次短语模型进行训练,从而得到性能较好的翻译模型。  2、提出基于规则嵌套的翻译模型优化方法  层次短语翻译规则之间缺乏一定的上下文信息,造成翻译解码时无法对错误译文进行有效判断。本文提出一种规则嵌套模型描述源语言规则之间的上下文关系。此外,我们引入最小层次短语规则以减少翻译模型的规模,同时有效避免统计规则嵌套模型时的数据稀疏问题。实验结果显示,融合层次短语规则嵌套模型可以显著提高系统的翻译性能。  3、提出基于名词性短语的翻译模型优化方法  本文提出一种基于迭代的名词性短语获取方法,并对层次短语翻译规则进行优化。一方面通过约束翻译规则中的非终结符为名词性短语,增加翻译规则的描述能力;另一方面通过约束翻译解码路径,对不符合名词性约束的路径进行惩罚。实验结果显示,采用该方法能够得到质量较高的名词性短语,同时显著提高层次短语翻译系统的性能。  4、提出基于加权有限状态机的语言模型优化方法  本文提出一种基于加权有限状态机的N元语言模型快速查询方法。该方法把语言模型的查询过程看作查询状态在有限状态机上的状态转移过程,从而有效减少语言模型查询的冗余操作,实现模型查询效率的显著提升。此外,本文通过对查询状态进行缓存的方法,进一步提高了语言模型查询效率。实验结果表明,该方法可以使传统语言模型的查询效率提高近3倍。  5、设计完成层次短语在线翻译系统和并行翻译系统  本文根据层次短语翻译模型的基本原理,设计完成在线层次短语统计翻译系统。通过对层次短语翻译系统中的翻译模型、语言模型以及解码器等模块进行优化,从而满足系统对翻译质量和速度的要求。在此基础上,我们设计实现了面向大规模双语语料的并行层次短语翻译系统,解决由于计算机硬件资源的约束,导致搜索空间无法任意扩展的情况。  综上所述,本论文针对面向大规模双语语料的层次短语翻译系统存在的主要问题,从双语语料获取、翻译模型优化以及语言模型优化等角度进行了深入研究,从而显著提高了层次短语翻译系统翻译质量和解码效率。本文最后设计实现了面向大规模双语语料的层次短语串行翻译系统和并行翻译系统,为进一步研究提高层次短语翻译系统性能奠定良好的基础。
其他文献
航天器空间对接是探月三期工程必须首先解决的关键性技术之一。对接机构的可靠性对上升器和轨道器的成功对接起着决定性的作用,因此,为了验证对接机构工作的可靠性,考查空间恶劣
非严格反馈非线性系统具有广泛的实际应用背景,且较严格反馈非线性系统更具普遍性与复杂性。在这些现实系统中,由于人们对过程机理的认识不够完善,从而非线性的结构信息往往不能
近年来,随着数码采集设备、存储技术、及互联网技术的飞速发展,以图像为代表的数字内容迅猛增长,并已经成为人们生产与生活中不可或缺的重要组成部分。然而,面对越来越多的图像数
随着工业自动化技术的发展,安全仪表系统广泛应用于保障设备安全运行、避免安全危险事故发生。作为安全仪表系统的重要组成部分,仪器仪表的安全性成为保障系统高可靠性的一个重
随着多媒体技术与互联网技术的高速发展,海量增长的图像、视频等可视媒体数据正极大地充实着现代人的生活。各种图像、视频的显示播放设备层出不穷,从传统的个人电脑、数字电视
激光惯性约束核聚变能量密度高、反应高效,可提供丰富、经济和安全的能源,已成为解决未来能源危机的有效途径之一。束靶耦合是激光惯性约束核聚变的关键技术之一。在核聚变之前
睡眠是人体恢复体力与自我修复的重要过程。通过对脑电信号等生物电信号的特征进行判读,用若干睡眠分期来表征整夜睡眠状态的变化,是评价睡眠质量和诊断睡眠问题的有力依据。计
HART智能设备以其兼容(4-20)mA模拟信号且具备数字通信功能的优势获得广泛的应用。数字通信的功能使其能够实现在线的监测、诊断、校验等。构建HART数字通信网络,实现HART设
随着高清摄像机在智能交通系统中的推广应用和图像处理技术的发展,基于图像的检测技术已成为最重要的车辆检测方法之一,并得到广泛的研究,在车辆检测准确率上不断提高。但是在城
脑作为人类神经系统的中枢,是一个精细、复杂和高效的系统,控制着人类的情感、思维和行为。探索脑的结构和功能、揭示脑的工作机制,是重大的科学前沿。现代影像技术的发展为人类