冶金领域汉越机器翻译方法研究

来源 :昆明理工大学 | 被引量 : 1次 | 上传用户:baochangjingmao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是跨语言信息交流最有效的方式,随着“一带一路”国家战略的实施,汉越机器翻译变得越来越重要。中国与越南在冶金行业有着大量合作,在冶金领域文本、科技文献、行业信息等有大量的翻译需求,对这些信息进行自动翻译对推动汉越双边冶金行业信息国际合作交流有着重要的意义。当前汉越机器翻译方面的研究工作还相对比较薄弱,尤其在特定领域的机器翻译研究工作更有限,严重制约了面向行业的跨语言信息交流。汉越语言本身存在很大差异,特定行业的翻译同时还具有很多领域特点,传统的翻译方法还不能完全适应面向冶金领域的汉越机器翻译,其面临双语领域术语获取、双语词对齐自动标注、适应于汉越语言差异特性及领域特性的机器翻译问题,结合汉越语言差异及冶金领域特性,本文开展汉越冶金领域机器翻译关键技术及方法的探讨,围绕冶金领域汉越双语术语获取、汉越双语词对齐、融合语言差异的树到树句法统计机器翻译、融合领域特性的句法统计机器翻译等关键技术展开研究,主要取得了以下创新性成果:(1)针对汉-越领域语料库稀缺而导致双语术语难于获取的问题,提出了基于枢轴语言的冶金领域双语术语自动获取方法,借助于已有的汉英、英越双语对照领域文本及科技文献,采用条件随机场模型在源语言端对汉语领域文本进行术语识别,然后,基于短语的统计机器翻译思想,构建汉语-英语短语概率表、英语-越南语短语概率表,借助枢轴的思想,通过英语枢轴的映射,获得汉语到越南语的短语概率表,并利用中文领域术语过滤汉-越短语表,构建汉-越冶金领域双语术语库。实验证明提出方法取得了很好的术语抽取效果,在汉越双语对齐资源稀缺的情况下,有效解决了汉越冶金领域双语术语抽取难的问题。(2)针对汉越词对齐自动标注问题,提出融合语言差异特性及深度学习的汉越词对齐方法,结合汉越在定语后置、状语后置和语言结构位置上的差异特点,定义语言位置转换函数及结构调整函数,并将这些函数作为约束,将语言结构差异特性融合到双向RNN学习的损失函数中,以此提升双语词对齐学习的性能及精度。汉越双语词对齐实验结果表明,提出的方法表现出很好的效果,语言特性及双向上下文信息能够有效提升词对齐效果。(3)针对汉越语言差异特点,提出了融合语言特点的汉越树到树统计机器翻译方法。语言差异特性对机器翻译有很好作用,分析汉越语言差异,定义汉越语言差异化规则,定义了定语后置奖励、时间状语后置奖励、地点状语后置奖励等语言特征,借助汉越双语词对齐语料,在模板抽取时,将语言差异特征融合到树到树翻译规则抽取过程,在解码过程中,利用语言差异规则对候选句子进行剪枝和优化,获取最优翻译序列,提高模板抽取及解码的效率和精度。汉越双语句子翻译实验结果表明提出的方法取得了很好的效果,句法差异特性的利用能够有效提升翻译的性能和精度。(4)为提升领域文本翻译效果,提出了融合领域特性的汉越句法统计机器翻译方法,分析了领域特点及其对机器翻译的影响关系,借助领域术语及语料,构建双语术语-主题分布模型、段落领域主题连贯性模型、及基于Freebase的领域知识模型,在融合语言特点的树到树的翻译模型中,将双语领域术语库、双语术语-主题概率分布、段落领域连贯性及领域知识关系应用到候选翻译的选择、组合及剪枝优化等解码过程中,从而更有效利用领域特性提升领域翻译效果。冶金领域汉越翻译实验结果表明提出的方法取得很好的效果,领域主题、段落主题连贯性、领域知识对领域文本翻译具有明显提升效果。
其他文献
Beta沸石是一种具有广阔应用前景的催化材料。本文综述了Beta沸石的合成原料、合成工艺路线、多形体和复合型Beta沸石合成的相关进展,着重分析了不同合成工艺路线的优缺点,展
为了提高化疗患者的治疗效果,减轻患者的心理负担,本文通过对96例患有癌症的老年人化疗前的临床观察及心理类型的分析,将化疗前老年人的心理状况分为4种类型:紧张焦虑型、消极
根据青海某矿区资源量、矿体产状、矿区地表地形及开采技术条件,从技术、投资和生产成本等方面进行了分析论证,采用露天与地下联合开采方式,与周边矿区资源开发统筹规划,能体现出
由于目前人们对绿色建筑和生态意识的加强,对绿色建筑要求越来越高,所以绿色建筑在设计中融入绿色生态颇为重要.本文通过探究绿色理念在建筑设计中的具体应用对其进行了分析.
本试验旨在探究饲料中添加刺五加超微粉对吉富罗非鱼生长、脂肪沉积以及非特异性免疫能力的影响。选取平均体重为(6.50±0.02)g的健康吉富罗非鱼720尾,随机分成6组,每组4
法语中的音节倒置词并非词汇学领域的新生儿。早在十六世纪,人们就曾利用音节倒置的隐语方式代替一些城市或人物的名称。进入二十世纪八十年代,音节倒置词重获新生,并成为法
运用SPSS14.0软件分析6月龄重庆市大足黑山羊公羊、母羊的体尺与体质量相关关系.结果表明:公、母羊的体尺指标均与其体质量有显著的相关性(p〈0.05),其中公羊尻高、胸深、体长以直接
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
<正>我国新一轮基础教育课程改革的一个重要目标就是要提倡学生主动参与的探究性学习。化学课程标准提出了"重视探究学习活动,发展学生的科