一种基于实例的汉英机器翻译策略

来源 :南京大学 | 被引量 : 0次 | 上传用户:liuya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入21世纪,计算机互联网的迅速普及使人们可以很方便的接触到世界各国的语言文化知识。但是当一个人去看他所没有掌握的那些语言的内容时,就需要把这些内容翻译成他所懂得的语言形式,如果靠人工来翻译会很不方便,因此就产生了用计算机来翻译的需求,即机器翻译。 机器翻译系统最早采用基于规则的转换技术来实现,现在该项技术越来越成熟,但是利用它进行翻译的结果仍不十分理想。这是由它的内在缺陷决定的:规则的获得比较困难;规则并不能概括一种语言的全部语言现象;规则之间会出现冲突。 1984年,基于实例的机器翻译技术首先被日本机器翻译专家长尾真(Nagao.M.)提出并日益受到重视,它在西方拉丁语系中得到了较好的研究与应用。基于实例的翻译系统有三个优点:系统容易维护;容易产生高质量的译文;同语种相关的知识较少等。 但是基于实例的翻译技术到目前还存在两个难点:双语的对齐(特别是当两种语言相差较大时);匹配算法,即如何充分利用语料库中的知识从而得到较好的翻译结果。 随后,这种技术被国内的计算语言学者引入到汉外的机器翻译系统中。在被用于汉外翻译系统中后,基于实例的翻译技术除了其已经存在的难点外,又引入了新的难点,例如: 1、汉语句子需要分词,而分词的错误会影响到翻译的结果,甚至还有放大效应; 2、汉语和西方语言(如英语)间的对齐效果不是很好,如在西方语言之间存在较多的同源词,而在汉语中就没有。 本文认真研究并对比了几种常用的机器翻译技术,如:基于规则的技术、基于统计的技术、基于实例的技术、以及在目前比较流行的多引擎翻译技术。考察了各种技术的优点、缺点及其难点。重点研究了基于实例的翻译技术及其翻译过程,包括双语语料库的设计,语料库的自动建立,翻译时的匹配技术及翻译结果的选择。在深入研究了前人在该领域的这些重要研究成果后,根据汉语语言的特点,提出了一种新的基于实例的汉英技术翻译策略,我们称之为基于语言片断对齐的汉英翻译,该策略对当前的汉英翻译技术的改进是不预先进行待翻译汉语句子的分词操作,这样可以避免由分词错误所带来的翻译错误,同时它也可以很好的确定翻译片断的边界,得到较好的翻译译文。 我们的工作具体包括三个部分:设计了一个适合于我们所提出的汉英机器翻译策略的汉英双语语料库。为了我们翻译策略的需要,我们在语料库的结构上不仅做到双语句子级的对齐,也进行了词语(语言片断)级的对齐,提出了一种翻译时汉语句子的匹配算法。在本策略中,我们根据汉语句子的特点,在进行翻译时的汉语句子匹配时,没有对待翻译的汉语句子预先进行词语切分,而是把它与语料库中的汉语句子进行字对齐操作。在语料库中,可以进行翻译的基本单位被括在两个“/”之间,我们称之为语言片断。根据这些语言片断,我们来确定待翻译句子词语划分的边界和可以进行翻译的句子片断边界。 研究并讨论了一些汉英双语语料库的自动构建问题。由于用手工来建立大规模的双语语料库费时费力,因此在语料库建立过程中就要尽量采用计算机自动建立。本文在语料库的自动建立过程中一些步骤采用了前人比较成熟的技术,如双语段落的自动对齐、句子自动对齐和词语自动对齐技术。双语词典包含两部分:手工建立的基础部分和用统计的方法在语料库中统计得出的附加部分。最后,在词语级对齐的双语语料库中引入聚类(clustering)技术,对一些用法相同或相近的词、短语、语言片断进行聚类,以提高语料库的覆盖度,并进而提高翻译结果的质量。
其他文献
本文着重讨论数据仓库技术,包括数据仓库的发展过程,组成部分、体系结构、关键技术和实施方法.并且结合实际工作情况,利用数据仓库技术在银行企业进行了应用,并在〈信贷风险
近年来,嵌入式系统及其相关技术得到了快速发展,嵌入式系统因具有体积小、专用性强、可行性高等特点而得到了广泛应用,嵌入式系统的智能化也成为时代的需求.该文介绍了基于知
RFID技术是一种阅读器和标签之间双向数据传输的技术,利用无线电信号对物品进行识别和交换数据。它具有非接触、读取距离长、读取速度快、适于恶劣环境等优点,因此,RFID应用
随着人们对移动性、便携性需求的增加,以快捷高效,组网灵活为优势的无线网络技术逐渐发展起来.无线网络为用户提供了在任何时间、任意地点进行通信和信息获取,并在移动中保持
安全存储系统为存储的数据提供保密性和完整性,防止对数据进行未经授权的访问和修改,同时也为授权用户提供了便捷的文件共享机制,它在电子商务、电子政务、公共远程存储等领
六十年代的软件危机使得人们开始重视软件工程的研究。起初,人们把软件设计的重点放在数据结构和算法的选择上,随着软件系统规模越来越大、越来越复杂,整个系统的结构和规格说明
随着电子技术和通信技术的发展,自动抄表系统得以广泛应用,各类相关产品层出不穷,人们对新产品也提出更高的要求。 目前的自动抄表系统一般分为两层结构:上层(管理中心与集中
面向对象技术在模块化一般的应用逻辑上做得很好,但无法封装象日志,安全,内存管理,异常处理等这样的系统级的关注点。这些关注点经常横切系统的核心应用逻辑(core logic),形成了
针对现有VDR系统在记录雷达图像方面的不足,该文在研究了雷达图像特征以及具体应用环境的基础上,设计并实现了一种在VDR中记录雷达图像序列的无损压缩方案.既吸收了通用压缩
XML已成为事实上网络传输的标准,它的出现给数据库领域带来了很多新的问题,其中XML数据的规范是当前的研究热点之一.如何准确有效的规范XML数据是操作XML数据的基础.同时由于