改进汉英统计机器翻译模型的教学方法研究

被引量 : 0次 | 上传用户:ode
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器翻译方法经历了从传统的规则到噪声信道模型,再到对数线性模型的转变。在诸多统计机器翻译技术中,基于短语的最小错误率训练是一种被广泛采用的统计翻译方法。本文依据数学原理,提出三种改进统计机器翻译系统的方法:(1)基于非平行语料的半监督传导学习(2)基于赫夫曼编码的解码算法(3)带约束条件的最小错误率训练。在基于短语的统计机器翻译系统Moses基础上应用上述三种方法进行汉英翻译实验,其中,带约束条件的最小错误率训练使得机器翻译系统性能得到显著提高。  本文在半监督传导学习方法的框架下,利用网上可以自由获取的非平行可比双语语料,通过迭代方法增加训练语料的规模,使得机器翻译系统可以用于平行语料较少的语言对。这种方法为统计机器翻译系统获取训练语料开辟了一个崭新的思路。  另外,还应用传统的赫夫曼编码树技术,改进已有的栈解码算法。这种方法通过使用合并策略而不是扩展策略生成新的假设,可以提高解码算法的效率,节约存储空间。实验结果表明,赫夫曼解码可以在保证译文质量的前提下,降低解码算法的时间复杂度,将解码速度提升16倍,使得统计机器翻译系统可以更加适应于对大规模数据的快速翻译。  根据贝叶斯公式,组成模型的各个函数之间存在独立性假设。然而,由于被用于描述语言现象的不同侧面,模型的部分函数之间有着必然的联系。在最小错误率模型的基础上,提出带约束条件的函数决策公式。函数之间的条件概率关系被做为约束条件加入翻译模型,从而在训练参数时,增强函数之间的关联性。  实验结果表明,函数决策公式的约束条件对统计机器翻译系统通过训练生成的参数产生影响。通过函数之间的约束条件调节,可以获得多个满足译文最小错误率的局部最优点。数百次的实验表明,开发测试集获得的约束条件参数能够显著提高系统在最终测试集上的评测结果。因此,适当的约束条件有助于基于最小错误率训练的翻译系统性能的提高。  以往的噪声信道模型、最大熵模型和最小错误率模型所依据的最优化函数都是无约束的。这种加入约束条件的方法在不增加系统的内存空间和执行时间的情况下,能够和各种改进最小错误率训练的方法一起使用,兼容性强,因此可以被广泛应用于统计机器翻译系统中。约束条件的加入使得机器翻译系统的模型参数更加适应测试语料,在没有使用其他外部资源(句法知识、人工规则等)的情况下,系统性能得到提高。只要找到更适合的约束条件,就有可能进一步提高统计机器翻译的性能,说明这种方法有广阔的发展空间。  综上所述,数学方法的改进对统计机器翻译系统至关重要。面对大规模的语言知识和统计数据,更好的数学模型能够帮助统计机器翻译系统更有效地整合各种信息,输出高质量的译文并降低系统执行所占用的时间和空间。
其他文献
随着现代化的不断推进与发展,网络信息技术已经渗透各家各户,甚至在某些行业里,系统软件及应用程序已经跃升为一线生产力.得益于先进科技技术的推动作用,银行、政府机关、教
在分析板集煤矿副井井筒水文地质条件和井壁突水特点的基础上,阐述了地面注浆特点,给出了在井筒破裂条件下控制注浆过程的方法,并在施工过程不断改进注浆技术。通过对注浆过
《汉文》是韩国中学的独立科目,相当于中国的文言文。该科目课程标准以翻译和理解语句为主,不重视语法分析,以至于出现注解错误和混淆等问题,影响学生对课文的正确理解以及教师讲
时光飞逝,岁月如梭,转眼间忙碌的2017年已过去,充满期待的2018年向我们走来.新的一年,孕育新的目标和希望,中国计算机学会武汉分部2018迎新联欢会于2018年元月21日在精伦电子
期刊
在油画技法引进中国后,中国油画家就开始了中西结合的风景油画创作.用西方的技法来表现意境的中国式风景.在如今科技飞速发展的时代,随着社会科技的发展以及计算机技术的进步
金秋十月,是丰收的季节。在喜迎党的第十七次全国代表大会即将召开的日子里,全国各族人民迎来了共和国58岁华诞。回顾58年的探索前行,我们的成就举世瞩目;展望美好的未来,我
伴随着互联网的推广与普及,三网融合脚步的加快,有线数字电视得到了发展,走进千家万户中.尽管在一些城市中有线数字电视实现了转变.但同时,有线数字电视市场也受到了冲击,存
贵刊34期《摒除领导班子不作为》一文列举了不作为诸多现象,可谓入木三分。在社会经济转型的关键时期,确有如此不作为的领导班子。 Article 34 of your magazine, “Excludi
中共上海市政法党校于1992年7月经中共上海市委批准建立。建校以来,在市委政法委的正确领导和市司法局党委的关心指导下,市政法党校始终贯彻“三个 The CPC Shanghai Munici
动词在句法成分中占很重要的地位,人们对动词的研究从未停歇过。20世纪80年代以来,汉语语法学界加强了汉语动词特定义类的研究,但多数是从动词角度研究不同语义的动词和宾语的搭