中文机构名称及地址的汉英翻译方法研究

被引量 : 0次 | 上传用户:foxbill_csdn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译(Machine Translation: MT)就是用计算机将一种自然语言翻译为另一种自然语言。经过七十多年的发展,目前机器翻译已经深入到各个子领域的研究。在翻译方法的研究上,基于统计的机器翻译方法逐渐占据了统治地位;而对于翻译对象,领域术语、命名实体(Named Entities: NE)等主要事实信息的翻译,正在成为研究者关注的焦点。在人名、地名的翻译任务利用音译技术基本完成之后,机构名称、地址等非音译信息的翻译成为命名实体翻译探索的重点。由于现有的机构名称及地址的汉英双语语料极其匮乏,导致当前主流的基于统计的机器翻译技术无法发挥优势。针对上述情况,本文提出使用基于规则的中文地址汉英翻译方法和基于多层次匹配的中文机构名称汉英翻译方法来解决中文地址和机构名称的汉英翻译任务,并对翻译知识的自动获取方法进行了深入研究。具体地讲,本文从如下几个方面进行了研究:1.应用当前主流的统计翻译工具pharaoh对机构名称的翻译性能进行分析,进而提出一种基于分字的机构名称统计翻译方法,并将基于分字和分词的翻译短语进行融合。两种方法使得译文的BLEU评分分别提高了8.1%和20%。2.探索了利用汉英双语地址对获取中文地址汉英翻译规则的途径,提出了基于等价翻译短语的中文地址汉英翻译规则获取方案,给出等价翻译短语的自动获取算法和基于转换错误驱动的翻译规则的自动学习算法。3.研究了中文机构名称汉英翻译知识的多层次获取方法。机构名称汉英翻译任务要求翻译出来的译文尽量符合人们以往的翻译习惯,而当前可用的双语资源十分有限。在这种情况下,本文研究了机构名称翻译知识的多层次获取方法,该方法使得有限的翻译知识得到了充分的利用。4.在命名实体汉英双语语料匮乏的情况下,为了解决中文机构名称及地址的汉英翻译任务,本文设计并实现了基于规则的中文地址汉英翻译系统和基于多级匹配的中文机构名称汉英翻译系统。实验表明,在仅有几千条标准汉英双语语料的情况下,两个系统开放测试的BLEU评分分别为0.7167和0.5531,基本达到了实用化的翻译水平。
其他文献
<正>这是一个共享的时代,共享资源,共享网络,共享知识……2016年底,共享单车在国内火爆起来,于是,共享经济又多了一位新成员。共享单车是指企业与政府合作,在公共服务区、地
研究了新型城镇化和公共安全日益严峻的背景下,城市公共开放空间景观设计中防卫性相关研究进展。提出了由于恐怖主义袭击、城市交通意外以及实践中的若干问题,防卫性景观设计
本文对福建省建瓯万木林自然保护区常绿阔叶林的植物区系成分、群落外貌和结构做了初步分析。 调查植物计58科100属140种。植物种类以樟科、壳斗科、未兰科、山茶科、杜英科
随着汽车市场的迅速发展,我国汽车工业竞争越来越激烈。汽车售后服务作为汽车工业竞争的一个重要的组成部分,越来越被各个厂家所重视。为了能在服务的竞争上取胜,一些汽车制
本文采用定量分析与定性分析相结合的方法,通过多种方法和手段的综合运用,对我国的应用性本科教育教学质量体系进行了深入研究,从而找到了体系中的三个重点改革变量,即专业设
城市私人小汽车使用率逐年攀升,但道路容量受土地紧缺与政府财政负担的限制而无法随之增加,因此在高峰时段,CBD与周边卫星城市的跨区通勤交通常发生拥挤排队情形。而当前交通
阐述构成稻米品质的因素,以碾磨品质、外观品质、蒸煮食味品质和营养品质4个方面10项指标为基础,探讨品种遗传特性、栽培因素和环境因素对稻米品质的影响,旨在为今后提高水稻
随着城市公交规模的不断扩大,乘客出行可供选择的线路也越来越多,因此,如何找到若干条合理的公交出行路径是乘客密切关注的问题。在实际情况中,我们希望能够基于乘客给出的出
国外毛泽东研究领域第三次论战主要是围绕心理分析方法,即从微观方面勾画毛泽东思想肖像而展开的"争论"。唯物史观只是提供了从总体上把握毛泽东的方法,只是构建了毛泽东的"整体
目的:研究运用一效散及膏外敷治疗晚期肿瘤并发褥疮的疗效。材料与方法:采用回顾性研究方法,对29例晚期肿瘤并发褥疮患者的临床分期,辨证分型、分期护理、治疗效果及其与褥疮