基于语料库的机器翻译中翻译知识的获取

被引量 : 6次 | 上传用户:fanfrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译(Machine Translation, MT)是利用电子计算机在不同语言之间实现翻译的一门实验性学科。随着互联网技术和机器翻译技术的发展,机器翻译在产品手册本地化、旅游会话和信息检索等领域得到越来越多的应用。虽然近年来机器翻译研究工作已经取得了长足进步,但在长文的机器翻译中翻译质量和解码速度还远未达到令人满意的水平。在基于语料库的机器翻译中,如何从大规模语料中自动获取高质量的机器翻译知识一直是该领域的研究热点。在基于实例的机器翻译(EBMT)中,翻译实例库是翻译知识的主要表现形式。不同语系的平行句对之间,句子的语序常常有很大出入。目前仅使用单词对齐信息从平行句对中获取翻译实例的方法经常会产生译文中的语序错误。针对这一问题,本文提出利用依存句法信息为翻译知识获取提供句法约束的方法,以减少语序错误的发生。依存句法信息是句子内成分之间修饰与被修饰的关系,借助这些信息可以获得长距离的语序调整信息;同时待翻译句子的依存句法信息也可以作为计算实例相似度和解码算法的依据,提高翻译精度。本文根据这一方法构建了基于依存结构化实例的机器翻译系统。在统计机器翻译中(SMT),短语表是翻译知识的主要表现形式。自动获取的短语表中不可避免的包含大量的冗余和错误的短语对,这极大影响了解码速度又会影响翻译质量。为了缓解这个问题,本文提出一种基于虚拟上下文的过滤短语表的方法。该方法通过引入虚拟上下文模拟解码时的语境来计算短语对在语言模型上的得分增量;并设计了一种对短语对重排序的翻译知识过滤策略,即通过分配最佳和最差语境来计算短语对的最大和最小得分增量。基于以上考虑,本文在基于语料库的机器翻译中,设计了利用依存句法信息约束来获得翻译知识和利用虚拟上下文信息过滤翻译知识的方法。为了验证所提方法的有效性,该工作在基于实例机器翻译框架中设计并实现了带有依存结构的翻译实例的获取方法、基于依存结构特征为主的实例相似度的计算模式和译文生成算法。本文利用国际公开评测NTCIR-9的中英专利数据模拟实际翻译系统的开发过程,构建了基于依存结构化实例的EBMT系统并进行了评测实验。评测结果显示系统的性能接近NTCIR-9公布的EBMT最好系统"KYOTO"的翻译水平。针对短语表过滤方法,本文在NTCIR-9的中英数据上进行了验证实验。结果显示,当短语表的规模下降到原来的47%时,翻译质量的BLEU值提高了0.0005;当短语表的规模下降到原来的30%时,BLEU值仅下降0.0006。实验结果表明,在大规模短语表的过滤中,本文的方法是有效可行的。
其他文献
<正>基本药物是适应基本医疗卫生需求、剂型适宜、价格合理、能够保障供应、公众可公平获得的药品,其用药人群广,使用量大,一旦发生药品质量安全问题,造成的后果及影响将十分
今将阿坝州种植植物药,菊科婆罗门参属蒜叶婆罗门参(Tragopogon porrifolius)的药理实验简报如下: 一、动物及制剂小鼠:C_(57)BL及BALB/c小鼠和杂系小鼠由本所繁殖。大鼠从
目的:检测IL-17在喉鳞状细胞癌(LSCC)及癌旁组织中的表达及在肿瘤相关性巨噬细胞(TAMs)上的分布特点。探讨在LSCC发生、发展中IL-17的表达与TAMs分布及新血管生成的关系。方
目的:改进马钱子及制马钱子的薄层色谱鉴别方法。方法:用80%乙醇超声提取,以含3%醋酸铵的无水乙醇为展开剂,采用GF254薄层板展开。结果:马钱子和制马钱子中的指标性成分士的
<正>提到大白兔,我们许多人的童年记忆便回来了——那小巧经典的圆柱形外观,沁人心脾的香醇奶味,舍不得扔掉的糖纸。在国内,上世纪六七十年代,人们要购买大白兔奶糖,必须得排
嵩县山金矿业有限公司在项目基建初,试验采用分段空场中深孔落矿的采矿方法对矿区内的中厚矿体进行回采,采场进行中深孔爆破后,对相邻采场的矿岩破坏极大,出现围岩冒落,矿石
我国1999年《宪法》修正案的规定:“中华人民共和国实行依法治国,建设社会主义法治国家”明确地提出了“依法行政,建设法治政府”的立法意蕴。法治政府是政府在依法行政过程中
<正> Brazil和Corrado(1957)曾发现鏈霉素具有一种类似鎂盐所致的神經肌肉阻制作用,鈣和新斯的明均可抑制鏈霉素急性中毒的这一方面的毒性,彼等曾用一个很大的剂量(110毫克/
消费者越来越看重电商服务质量的同时,也开始对网购后快递物流服务提出了更高的要求。快递物流服务水平对于客户评价电商服务所占比重越来越大,俨然成为网购者进行重复购买的
目的:探讨尘螨特异性IgE和白细胞介素4(IL-4)在脱敏治疗中的作用。方法:总结180例变应性鼻炎患者脱敏治疗疗效(症状评分),测定治疗前后患者血清尘螨特异性IgE和IL-4水平。结