机器翻译中系统融合技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wenpeson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译的研究已经有几十年的历史了。目前主流的研究方向是基于统计的机器翻译模型。统计翻译模型从基于词到成熟的基于短语的翻译模型,直至到形式化文法和基于句法的翻译模型,而且加入了很多的特征。因此机器翻译进入了一个“百花齐放,百家争鸣”的时代。但是不同的模型有不同的重排序能力,不同的解码方法有不同的搜索空间。针对多种机器翻译的翻译结果,我们是否能够融合多种翻译结果来达到“取长补短”,这就是系统融合。系统融合在近几年才取得了标志性的性能提高,但关于系统融合的若干关键问题的研究还不完善。按照融合的粒度来分,可以分为基于句子,基于短语,和基于词的系统融合;按照融合的阶段来说,可以分为后处理阶段和解码阶段的系统融合。本文主要是在两种现今流行的方法中研究:一个是后处理阶段的基于词的系统融合,另一个是解码阶段的系统融合。本文对系统融合中出现的若干关键问题进行了研究。其中包含骨架翻译的选择,对齐方法,在混淆网络中的调序,模型融合后的解码方法等方面。基于这些问题,本文旨在提高系统融合的性能,针于基于词的系统融合提出了增强的对齐方法,重排序模型以及新的解码框架本;针对模型融合的解码方法进行了深入了研究。本文具体研究内容包括以下几个方面:1.研究了在基于词一级系统融合中混淆网络的构建中加入了增量的策略。我们也说明增量对齐方法能够有效的改进对齐质量;由于在“翻译错误率”(TER)增量对齐中,假设翻译的顺序影响了增量对齐的结果,我们做了实验性的比较;同时为了解决TER算法只匹配同一词的缺点,我们引入取词根和基于WordNet的词义消歧方法来进行候选翻译和假设翻译中词语的对齐;2.在系统融合的训练过程中,混淆网络的骨架翻译的选择决定了假设翻译的语序,传统的选择方法是选择具有MBR特性的候选翻译作为对齐的骨架,这就造成了对于混淆网络只考虑到一种语序形式。由于我们融合的机器翻译结果是来自于多种不同文法或是方法,每种翻译结果有着不同的语序,为了使得每种翻译结果的语序都被考虑到,我们构建了一个超级混淆网络,并用两种方法来验证方法的有效性:一种在超级混淆网络中的加入基于混淆网络的特征;另一种是在解码中对多个混淆网络生成的候选翻译翻译进行一致性重打分。实验结果也验证了两种方法的有效性。3.研究了利用超图进行系统融合的训练和解码。为了计算训练阶段的量值方便,我们在训练的过程引入了二阶半环框架来计算梯度。在解码阶段为了使得原有Cube-Pruning剪枝的框架被保留下来,我们使用Cube Growing,采用了三个阶段的训练解码,第一个阶段是使用Cube Growing进行普通解码;第二个阶段使用n-gram特征来解决伪歧义和一致性解码的问题;第三个阶段对于两个系统融合模型进行融合,三个阶段取得了一定的效果。由于更大的搜索空间和更好整合语言模型特征,得到了比较好的结果。4.由于每种文法表现能力不同,为了使得每种文法能够取长补短,我们对于层次短语文法和括号转录文法进行在机器翻译的解码框架下进行融合。不同于系统融合方法,解码框架的融合考虑到了解码过程生成的侯选翻译的互相影响,并不是对于生成翻译结果进行重新训练和解码,这样减少了整个过程的时间,同时性能也好于单个系统生成的翻译结果。综上所述,本文基本上给出了系统融合中的一整套解决方案,有后处理和模型间融合的模型研究,有这些过程的训练和解码研究。为自然语言处理中的难题之一——系统融合,在新的研究思路上进行了初步探索。
其他文献
笔者自2001年5月~10月,应用藏药奇正洁白丸治疗糖尿病胃轻瘫(DGP)21例,疗效满意,现报告如下。1 临床资料42例均为门诊患者。Ⅱ型糖尿病的诊断,符合WHO1985年标准。胃轻瘫的诊断,参
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
在我国老年人口规模持续增大、家庭养老负担逐年加重、养老成本不断提高,养老设施发展面临困境 的背景下,笔者以上海、北京、武汉等我国典型特大城市为例,借助大数据挖掘、 A
随着科技的升级和信息在移动互联网传播的加快,商业环境发生了巨大的变化,对市场趋势的准确判断和对产品需求的有效管理和整合成为产品创新设计成功的关键因素。在产品设计、
随着饲料工业的快速发展,膨化饲料技术已成为生产各类高品质饲料的重要技术、利用膨化饲料技术可以充分展现物料本身的品质,从而极大提高了饲料产品的品质,拓展了饲料资源,改善了
本文根据职业教育人才培养目标,结合学校电气专业人才培养方案和当前学情状况,对"电气控制技术"课程从教学内容、教学方法、教学手段、考核评价等四个方面进行改革的探索与研
文章从光的基本概念、表达方式,以及通过建筑实例分析来探讨光与建筑的关系,并从建筑内部空间、建筑外在形象、建筑意境三个角度来阐述光是建筑艺术的灵魂. The article dis
海派风格的建筑具有其独特的发展和演变史,需要从时间的顺序、人文的角度进行风格和特点的详尽阐述。本文围绕上海"新海派"建筑对于石库门的改造等手法的运行展开论述,提出这
纹理合成在计算机视觉、计算机图形学和图像处理方面都有广泛的应用。高质、快速的基于样本的纹理合成方法是其中最典型的代表,它能够避免传统纹理映射和过程纹理适用范围有