基于多系统融合的统计机器翻译模型及系统研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:hwen1023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,基于统计的方法在机器翻译领域内占据着主导地位,出现了多种不同类型的基于统计方法的机器翻译系统,如基于短语的系统、基于层次型短语的系统、基于句法的系统等。每种类型的系统各具特点,在不同的领域和方面都表现出了良好的翻译性能,因此,统计机器翻译已经步入了一个“百花齐放、百家争鸣”的时期。   本文的研究是基于多翻译系统融合框架下,针对汉英双语语料优化处理、多引擎平台建设以及短语模型优化等主要问题,进行深入细致的分析和研究,提出解决方案,并通过大量的实验进行对比验证。论文的主要工作归纳如下:   1.提出面向统计机器翻译的语料库建设规范与实现流程,并改进了基于内容的双语语料优化方法。   从语料搜集、语料初级加工、语料深入加工到语料应用,本文作者为统计机器翻译模型和算法研究搭建了一个良好的资源平台。在双语语料优化方面,提出了基于IBM词对齐模型的两层分割和过滤算法。第一层分割算法中的基于锚点的分割可以较准确的切分句子结构,正确率较高;基于无锚点的分割可以有效搜索到英文中的连接词作为切分锚点进行切割,从而减小句子长度。第二层过滤算法可以从句对表层(句子长度比)和内容(词汇匹配信息)进行过滤,有效剔除错误对齐的句对,很大程度减小切割后的新语料所引入的噪声。   2.提出多引擎统计机器翻译平台建设及实现流程,并对短语翻译系统的关键模块和平台中与具体系统无关的公共模块进行多种优化处理。   本文作者为统计机器翻译模型和算法研究搭建了一个良好的多引擎实验平台,同时也为面向工程性开发提供了一个转换平台。在基于短语翻译引擎的研究中,提出了基于变量替换的短语翻译系统,使用变量符号替换双语语料和测试集中的命名实体,从而有效降低了词汇量和短语表规模,同时使双语短语具有一定的泛化作用。在平台建设的关键公共模块中,主要描述了模型参数的最小错误率训练模块、重排序模块和后处理模块,并通过实验对各个模型的性能进行测试和比较。在基于短语翻译系统的模块优化中,重点对短语翻译模型进行优化。在短语抽取方面,首先对基于相容性抽取原则进行扩展,可以向短语两端的空对齐点进行扩展,增加了短语的规模,同时也提高了好短语在短语表中的比重;其次对短语概率计算方法和词汇化概率计算方法进行改进,提出在语料库中统计频率短语概率从而更接近真实分布;在词汇化概率计算方面,更侧重于对好坏短语通过概率进行区分,提出对双向词对齐概率取几何平均计算短语的词汇化权重;最后根据不同长度类型的短语在短语表和解码中的分布状况,提出基于3层词对齐组合方法的短语抽取策略。该策略可以保证在原来GDF方法词对齐召回率不损失的情况下,通过加入准确率更高的Intersect和GD方法抽取的短短语,优化短语表构成状况,提高BLEU得分。   3.提出基于位置向量预测的短语翻译系统调序模型。   基于短语的统计机器翻译系统的主要问题是短语重排序。本文在对多种面向短语翻译方法的调序模型进行深入分析和研究的基础上,提出基于短语相对位置和方向关系的位置向量预测模型。短语之间的相对位置关系可以描述为短语与其前接短语、后接短语之间的相对距离;方向关系可以描述为短语与其前接短语、后接短语之间是单调、交换还是非连续关系。在解码过程中,下一个要扩展的短语可以通过位置、方向双重概率进行约束。实验验证了该调序模型相比于单纯的位置调序模型和方向调序模型在系统翻译性能方面有更显著的提高。   4.提出基于混淆网络解码的多特征系统融合框架。   该框架是基于词级进行系统融合的一种方法,是基于MBR解码和混淆网络解码的多特征融合框架。首先使用MBR解码器以BLEU评价准则作为损失函数,从多个系统的N-best中选择一个贝叶斯风险损失最小的翻译假设作为对齐参考;然后利用改进的对齐方法-GIZA-TER对齐准则将其他所有翻译假设对齐到该对齐参考,构造基于词级的混淆网络。解码模型采用对数线性模型,以词的后验概率、语言模型、词性语言模型和句子长度惩罚作为特征,使用柱搜索技术对混淆网络进行最优路径搜索。实验表明,本文作者提出的多系统融合框架显著提高了翻译系统性能。   综上所述,本论文在双语语料库建设和优化、多引擎平台的建设和优化、基于短语模型的关键模块改进和优化、基于混淆网络解码的多系统融合等方面做了大量的实验、进行了深入的研究,并提出了有效的解决方案,有效地改进了现有实验系统的性能,为进一步探索新的翻译方法奠定了良好的基础。
其他文献
尽管基于神经网络的机器人步态学习控制问题已经被广泛研究,然而已有的研究成果对于神经网络能否学习到系统未知动力学模型并没有进行深入探讨。这导致了在已有的控制策略中,
对先验信息的表达和利用是提高机器学习方法性能的重要途径,而数据的空间结构是先验信息的重要表现形式之一。近年来,利用图来刻画数据间内在结构的方法受到研究人员大量的关注
本文主要研究了一种综合运用现代控制理论、测试性理论与可靠性技术解决舰空导弹测试项目优化问题的方法。首先,通过系统建模、规范分解、最小维观测器设计提取测试项目;其次,根
无线传感器网络的发展使得它的应用越来越广泛,目标跟踪是其中最重要的应用之一。它对于仓储物流、环境监控、道路交通和军事目标跟踪等领域都具有重要的研究价值。本文对基
在工业、航天、医疗等许多领域中,经常需要测量两个空间物体坐标系间的相对位姿。位姿测量方法一般包括声纳或激光测距、GPS、视觉方法等多种方法,其中视觉方法由于其信息量大
近年来,机器人技术已经广泛应用到非工业领域,如医疗、康复、巡游等。其中,由于潜在的科学意义和社会效益,服务机器人成为了机器人研究的新热点。开发服务机器人涵盖多项机器人技
人类很早就发现自己有模仿别人说话的能力,甚至某些动物,如鹦鹉,都有很强的模仿能力。语音技术发展到今天,研究人员逐渐意识到,这种模仿技术在现实中存在着巨大的需求,语音转换技术
复合材料自动铺丝技术具有加工效率高、制造成本低、可重复性好、自动化程度高等优点,在国外发达国家已广泛应用于各种大型和复杂复合材料构件的制造成型,而我国自动铺丝技术研
本文对分布式数字化高炮火控系统的一些关键技术进行了研究,主要包括多重命中射击体制、虚拟闭环校射技术和弹炮结合技术,这些关键技术是基于现有火控系统平台的一个深入开发和
随着人类基因组计划的成功实施,充分利用这些基因组测序数据,得到对人类有用信息的需求迅速增加,随之而诞生的生物信息学充分利用信息技术、数学、生物学、计算机科学等多学科工