论文部分内容阅读
机器翻译是跨语言信息交流最有效的方式,随着“一带一路”国家战略的实施,汉越机器翻译变得越来越重要。中国与越南在冶金行业有着大量合作,在冶金领域文本、科技文献、行业信息等有大量的翻译需求,对这些信息进行自动翻译对推动汉越双边冶金行业信息国际合作交流有着重要的意义。当前汉越机器翻译方面的研究工作还相对比较薄弱,尤其在特定领域的机器翻译研究工作更有限,严重制约了面向行业的跨语言信息交流。汉越语言本身存在很大差异,特定行业的翻译同时还具有很多领域特点,传统的翻译方法还不能完全适应面向冶金领域的汉越机器翻译,其面临双语领域术语获取、双语词对齐自动标注、适应于汉越语言差异特性及领域特性的机器翻译问题,结合汉越语言差异及冶金领域特性,本文开展汉越冶金领域机器翻译关键技术及方法的探讨,围绕冶金领域汉越双语术语获取、汉越双语词对齐、融合语言差异的树到树句法统计机器翻译、融合领域特性的句法统计机器翻译等关键技术展开研究,主要取得了以下创新性成果:(1)针对汉-越领域语料库稀缺而导致双语术语难于获取的问题,提出了基于枢轴语言的冶金领域双语术语自动获取方法,借助于已有的汉英、英越双语对照领域文本及科技文献,采用条件随机场模型在源语言端对汉语领域文本进行术语识别,然后,基于短语的统计机器翻译思想,构建汉语-英语短语概率表、英语-越南语短语概率表,借助枢轴的思想,通过英语枢轴的映射,获得汉语到越南语的短语概率表,并利用中文领域术语过滤汉-越短语表,构建汉-越冶金领域双语术语库。实验证明提出方法取得了很好的术语抽取效果,在汉越双语对齐资源稀缺的情况下,有效解决了汉越冶金领域双语术语抽取难的问题。(2)针对汉越词对齐自动标注问题,提出融合语言差异特性及深度学习的汉越词对齐方法,结合汉越在定语后置、状语后置和语言结构位置上的差异特点,定义语言位置转换函数及结构调整函数,并将这些函数作为约束,将语言结构差异特性融合到双向RNN学习的损失函数中,以此提升双语词对齐学习的性能及精度。汉越双语词对齐实验结果表明,提出的方法表现出很好的效果,语言特性及双向上下文信息能够有效提升词对齐效果。(3)针对汉越语言差异特点,提出了融合语言特点的汉越树到树统计机器翻译方法。语言差异特性对机器翻译有很好作用,分析汉越语言差异,定义汉越语言差异化规则,定义了定语后置奖励、时间状语后置奖励、地点状语后置奖励等语言特征,借助汉越双语词对齐语料,在模板抽取时,将语言差异特征融合到树到树翻译规则抽取过程,在解码过程中,利用语言差异规则对候选句子进行剪枝和优化,获取最优翻译序列,提高模板抽取及解码的效率和精度。汉越双语句子翻译实验结果表明提出的方法取得了很好的效果,句法差异特性的利用能够有效提升翻译的性能和精度。(4)为提升领域文本翻译效果,提出了融合领域特性的汉越句法统计机器翻译方法,分析了领域特点及其对机器翻译的影响关系,借助领域术语及语料,构建双语术语-主题分布模型、段落领域主题连贯性模型、及基于Freebase的领域知识模型,在融合语言特点的树到树的翻译模型中,将双语领域术语库、双语术语-主题概率分布、段落领域连贯性及领域知识关系应用到候选翻译的选择、组合及剪枝优化等解码过程中,从而更有效利用领域特性提升领域翻译效果。冶金领域汉越翻译实验结果表明提出的方法取得很好的效果,领域主题、段落主题连贯性、领域知识对领域文本翻译具有明显提升效果。