统计机器翻译领域适应性研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:windamill
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器翻译是一种以大规模平行语料为基础,从互为翻译的双语文本中统计学习翻译知识、构建翻译模型,进而利用此模型完成翻译任务的自动化翻译技术。当前,统计机器翻译系统由规模较大、领域混杂的平行语料训练获得,面向非特定领域翻译任务时,往往表现出较好的翻译性能。然而,针对特定领域翻译需求,例如,科技文献翻译,通用领域机器翻译系统无法根据特定领域知识和特有的语言表述形式,做出适应性调整,导致特定领域机器翻译性能降低。为此,本文集中研究统计机器翻译领域适应性问题,并提出解决这一问题的新方法,主要研究内容归纳如下:1)通用领域平行语料库建设平行语料库建设旨在收集互为翻译的双语文本,是统计机器翻译领域适应性研究必不可少的资源基础。其中,识别双语网站内平行网页对是平行语料库建设的关键步骤。针对此问题,本文提出一种基于链接的平行网页对识别新方法。该方法能够充分利用网页对之间的内部信息和外部信息,识别双语网站内的平行网页对。实验结果表明,相较于基准系统,本文所提方法在测试集上提升6.2个F值点(%),可以验证该方法的有效性。2)特定领域双语句对选择面向特定领域的翻译任务往往缺少充足的目标领域平行资源,双语句对选择方法旨在从大规模通用领域双语句对中,抽取与待翻译文本领域相关性较高的句对,用以增补或形成专门的领域双语知识库,并唯一地用于特定领域的机器翻译系统。针对此问题,本文从句对生成建模的角度出发,提出三种基于翻译模型和语言模型相融合的双语句对选择方法。该方法能够合理评价双语句对的领域性及互译性。实验结果显示,利用本文所提方法选择双语句对并训练翻译系统,相比于基准系统,在测试集上平均提升3个BLEU值(%)。3)通用领域和特定领域翻译模型融合特定领域双语句对选择旨在从通用领域平行语料库中,抽取Top N领域相关性较高的平行句对,并用于训练领域机器翻译系统。然而,N值往往难以自动优化。为此,本文探索在模型层次上融合不同领域翻译模型,并提出一种基于翻译模型特征加权的融合方法。该方法能够重新调整通用领域翻译模型翻译知识分布,使之近似于目标领域,进而提升通用机器翻译跨领域适应能力。实验结果表明,相比于基准系统,利用本文方法优化后的系统在测试集上平均提升2个BLEU值(%)。
其他文献
本文的重点在于研究高中政治教学中如何培养学生的思维能力,从而提高学生的综合素质.本文通过对高中政治教学中学生思维能力相关知识的全面概述,分析了教师应该注重学生何种
高中物理这门学科对于学生的观察、想象以及逻辑思维能力都要求很高,需要教师指导学生在物理实验的过程中仔细观察物理现象的规律性,并借助师生间的有效理答行为,帮助学生内
高中的学习生涯是最锻炼学生毅力和能力的阶段,而生物学科的教学,是理科生不能忽视和放松的,所以,教师在此期间承担的责任重大.新课改的目的是提高学生参与课堂的积极性,引导
论文基于杨述武先生主编的《普通物理实验2:电磁学部分(第四版)》实验教材的内容,对分压电路实验的实验目的和实验内容做了一些分析讨论.本实验的最基本要求是了解基本仪器的
区域创新能力是区域发展的源泉和动力,是区域获得竞争力的关键性因素。国家可持续发展实验区作为探索先进发展模式的“先头兵”,应当提高增强区域创新能力的使命感、责任感和
近些年,关于生命本质教育本质的研究已经逐步成为热点,同时其也在高中生物课本中得以体现.本文从分析探讨的角度出发,分3个维度、6个特性对生命本质教育的内容进行重新构建和
我们党的建军思想,是在土地革命战争初期建军实践中产生和形成的,它以毛泽东建军思想为代表,是党的集体智慧的结晶。本文就这个问题,作一初步的探讨。“八七”会议中央提出
摘 要:高中化学是理科学习中重要的组成学科,十分受到重视。在高中化学知识当中不仅涵盖的知识点比较多,同时在学习任务上也比较重,因此积极地提升化学解题技巧是非常重要的。本文主要對高中化学实验题的解题技巧进行了分析,希望对大家的学习能起到一定帮助。  关键词:高中化学;实验题;解题技巧  一、 前言  化学的学习本身是具有较强实践性的,大部分的课堂理论知识都是通过实验之后而总结归纳形成的。要想在高考当
电解质溶液中各粒子浓度的计算,是高中化学学习的重点,由于此类题型种类繁多,计算公式大的特点,所以,此知识点的讲解也给老师带来很大的困难.本论文主要对各类盐溶液中各微粒
如何把高中物理试卷讲评课上得更高效、更科学,本人结合自身教学实践,谈谈自己的思考和做法,与各位同仁共同探讨.