英汉机器翻译中的歧义及消歧策略

被引量 : 0次 | 上传用户:xiaoPhaiM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今这个全球经济一体化、信息爆炸的时代,特别是在中国加入世贸组织后,国内外的科技文化信息的交流如汹涌的潮水势不可挡。Internet的迅速普及,使信息传播突破了国界的限制,但语言差异却成了信息交流的最大障碍。传统的人工翻译已不能满足要求,人们渴望发展自然语言信息处理技术以能快速、有效地解决海量信息的翻译问题,机器翻译就是解决这个难题的最好的办法。 机器翻译的确切定义是用计算机把一种语言全自动翻译为另一种语言。机器翻译研究的意义是不言而喻的,但又是一项艰巨的研究课题。自二十世纪四十年代美国为获取情报而首次开发出机器翻译技术以来,机器翻译已有六十余年的发展历史,其间经历了几起几落的曲折历程。人们对它的评价毁誉参有。尽管二十世纪九十年代以来,已有许多机器翻译系统进入了市场,但其翻译结果却不尽如人意。由于计算机本身固有的特点及语言学、算法的不够完善,机器翻译系统面临的主要瓶颈之一就是语言歧义消解问题。本文研究英汉机器翻译中的歧义现象,在总结前人经验和个人研究(调试北京中文信息处理开放实验室的“译路通”英汉系统)的基础上,提出了一些可行的消歧策略。 机器翻译的设计一直是尽可能地模仿人的翻译原理。本文的第二部分介绍了机器翻译系统的历史、现状和原理。一个译者必须具备双语词汇,双语语法知识、客观经验知识及对上下文已合信息的判断能力。机器翻译系统则包括词典或语料库和翻译引擎两部分。翻译引擎一般又包括三大模块:词法分析、句法分析、转换生成模块。其中句法分析模块主要是基于短语结构语法和语言递归性原理,用逻辑编程语言表述成的一整套规则,经过这些句法规则判断,得出句法树。本文还分析了生成模块的生成转换过程。 从机器翻译系统的原理得知,机器翻译系统主要是以句子为单位进行语法分析和转换,所以机器翻译系统的缺点是缺乏客观经验知识,和不具备上下文信息的判断及认知学习能力。歧义现象是自然语言的显著特点,但人类可以轻而易举解决的歧义问题,计算机处理起来却很棘手。本文第三部分分类列举了各种歧义现象,歧义主要分为语义歧义、句法结构歧义两大类。语义歧义指语义确定问题,首先是英汉数词转换中的量词歧义,机译系统有时无法判断加什么相应中文量词。机译系统在词性相同的情况下,由于缺乏语义限制,而无法决定词义,这是一词多义歧义.又由于机译系统的语法规则生成性很强,在语法结构相似时,无法决定词的词性,叫兼类歧义。而且机译系统缺乏上下文信息判断能力,无法正确回指代词指代对象,是代词回指歧义。句法歧义主要是句法分析中的结构歧义。其中,除了英语长句断句歧义外,修饰成分歧义也是个很大的难题,包括系统判定定语从句、“of”短语、介词短语、并列结构的修饰对象及范围。本文还讨论了以上所有歧义现象对机译系统翻译效果的影响,主要有原文无歧义,译文无歧义;原文无歧义,译文有歧义;原文有歧义,译文无歧义这三个方面。 针对这些歧义现象,论文在第四部分提出了一些可行的消歧策略。消歧目前主要有语言学消歧法和统计消歧法。传统的机器翻译系统一般采用语言学方法,本文也是从这方面着手讨论消歧问题的。语言学消歧包括语义消歧、句法消歧和语用消歧。语义消歧的主要策略是对机译系统进行语义限定,包括形态消歧和词义消歧。形态消歧是在司法分析模块中制定规则,对输入词的形态结构进行限制,初步判断词性,并把判断结果输给句法分析模块。词义消歧的方法目前有三种。一是基于语料库消歧,即运用隐马尔可夫模型及计算机学习算法构建无歧义指导型语料库,并对语料库中的语料进行词性标注,或构建未标汪的对齐语料库。二是采用基于知识的消歧方法,在系统词典、义类词典、词网中进行语义限定和语义、句法标注,从而确定词义。笔者参与调试的“译路通”采用的就是用基于知识的消歧法,即在系统词典中标注近邻和词团约束关系、在引擎中定义语义及语法特性.这种方法能把词的语义特性和语法功能结合起来,以解决一词多义、兼类和句法歧义问题.三是基于语料和知识的混合方法.句法消歧是针对句法歧义中的定语从句和并列句歧义,在翻译引擎中制定共性规则和个性规则.而语用消歧则是利用语用信息消除代词所指歧义.除了诏言学消歧外还有统计消歧,它是基于海量语料库,统计出词与词之间的概率.在以上方法都不能消除歧义的情况下,可以在保证翻译可读性的前提下,让机译系统保留歧义进行翻译. 虽然英汉机器翻译系统中的歧义很难解决,但并不是毫无解决的办法.笔者认为,多种消歧方法应有效地结合起来。为了得到较好的翻译效果,还应建立友好的人机交互界面及译后编辑体系.机器翻译的研究正在不断取得新的成果,它势将要克服种种困难,成为世界各国人民必不可少的、可靠的交流工具。
其他文献
媒介作为"人体的延伸",其基本功能在于推进人的社会化,而随着科学技术的不断发展,使得"媒介功能"也得到进一步的"延伸"。本文认为,近年来出现的一些纯个人问题求助类以及心灵
煤层渗透率动态变化规律是煤层气开发地质领域的研究热点之一。根据无因次产量分析方法,基于沁南地区15口高煤阶煤层气井排采数据,采用无因次产气率指标,将排采阶段定量划分
<正>面对媒介融合的大趋势和舆论环境的深刻变化,省级卫视新闻只有坚持改进创新,实现从传统意义上的舆论宣传阵地向适应新型传播格局的舆论阵地转型,才能发挥优势,切实提高舆
文章探讨了关于农村青年创业教育的问题,并提出了开展农村青年创业教育的思路与若干对策:充分认识开展农村青年创业教育的重要性;准确定位农村青年创业教育;建立健全农村青年
本文从对沧州炼油厂设备管理现状的分析入手,结合现代设备管理的理论与实践,通过进行大量的现场调查,指出当前沧州炼油厂在规范设备管理方法和手段上存在的问题,制定了符合现代设
<正> 为了适应建立现代企业制度的要求,深化投资体制改革,建立投资风险约束机制,有效地控制投资规模,提高投资效益,促进国民经济健康发展,我国投资与建设领域即将推行固定资
高俅事迹在侧面反映了宋代足球的繁荣,本文系统介绍了宋代足球兴起的背景,并结合高俅与蹴鞠结缘的一生,勾勒出宋朝蹴鞠的繁荣状况。
禽大肠杆菌病(Avian Colibacillosis)是指部分或全部由禽病原性大肠杆菌(Avian Pathogenic Escherichia coli, APEC)所引起的局部或全身性感染的疾病,包括大肠杆菌性败血症、
武术是中华民族传统文化宝库中的瑰宝,也是颇具中华民族传统文化特色的体育项目之一。竞技武术是武术的重要组成部分,其发展在很大程度上影响着武术的发展。研究宁夏竞技武术
我国各类农作物秸秆资源十分丰富,每年产出量多达6.4亿t。随着经济和社会的发展,农业主产区秸秆资源大量过剩问题日趋突出,农民就地焚烧秸秆,造成严重的环境污染和资源浪费。因此