面向自动双语对齐的翻译单位计算研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:haoxiang123123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语对齐是平行语料库加工的关键技术之一。目前的自动双语对齐研究较少利用语言学知识,这导致了基于这些研究的对齐结果缺乏语言学意义。翻译单位概念旨在描述译者如何选择源文和译文之间的对应单位的思维过程。因此,建立基于翻译单位的自动双语对齐模型,有利于计算机模拟人类的翻译过程,从而一定程度上克服目前自动双语对齐研究的盲目性。本研究首先从翻译单位的定义出发,通过定性和定量分析两种手段来确定翻译单位的基本属性。然后,本研究从计算语言学角度探索如何将翻译单位的属性形式化并据此建立基于翻译单位的双语对齐模型,使得计算机能够自动识别并提取双语文本中的翻译单位。最后,本研究根据此双语对齐模型的结果,进一步讨论翻译单位的性质及统计分布规律,并分析该模型在机器翻译(尤其是基于实例的机器翻译)系统中的应用价值。本研究总结了翻译单位的研究现状,指出翻译单位虽然是翻译界广泛关注的问题,但是各研究派别对于该概念的定义和性质看法莫衷一是。通过对比翻译单位的主要定义,本文作者总结出翻译单位的四个基本属性(或特征),即紧密性、独立性、无歧义性和无对应性。这些特征分别从源文某语言单位内部各成分之间的联系、该单位与上下文之间的联系、该单位是否具有歧义或该单位的各成分在译文中的对应情况等角度来分析它是否可以被视为翻译单位。各翻译单位定义的差异在于它们分别强调翻译单位的某一方面属性(或特征)。与此同时,本研究从NIST 2002机器翻译评测项目的测试集中选取491对句珠,依据紧密性、独立性、无歧义性和无对应性标准对其中的翻译单位进行手工标记。统计结果表明,分析角度不同,对翻译单位的判定结果也不尽相同。具体来说,紧密性、独立性和无歧义性标准倾向于将词与其上下文语境组合认定为翻译单位,而根据无对应性标准划分的翻译单位则倾向于以词为主。前者比后者长度更大,而且与后者呈现包含与被包含关系。随后,研究者综合上述翻译单位的四种基本属性,提出了面向自动双语对齐的翻译单位的工作定义,并分别讨论这些属性形式化所需的计算语言学模型及语言资源。具体来说,本研究主要应用GIZA++统计词对齐模型、N元组互信息势差(mutual information potential difference,MIPD)及基于向量空间模型(vector space model,VSM)的语义相似度计算等方法来判断源文某语言单位的紧密性、独立性、无歧义性和无对应性。其中,GIZA++词对齐模型用于提供双语文本中词汇层的对齐信息,据此我们可以判断词是否是基于无对应性标准的翻译单位;N元组互信息势差是本研究提出的一种基于互信息的新统计量,它将紧密性和独立性结合起来以便更加科学地判定翻译单位;而向量空间模型则通过计算某源文单位所有对应译文间的语义距离来判断该单位是否是基于无歧义性的翻译单位。为了满足计算的需要,本研究在使用双语语料库的同时,还引入Google公司的Web 1T 5-gram大规模单语语料库来克服数据稀疏问题。本次研究所建立的基于翻译单位的自动双语对齐模型的工作机制是:首先,对源文和译文进行词性标注和句法分析,同时以GIZA++统计词对齐结果作为锚点,得到源文与译文在各语言层次上的对齐关系。然后依次对这些对齐片段进行紧密性与独立性、无对应性及无歧义性分析或计算。当且仅当源文某单位符合以上一个或多个属性标准时,才被最终认定为是翻译单位。总而言之,该模型在现有的双语句子级对齐的基础之上,通过一系列计算确定了源文与译文在翻译单位层次上的对应关系。通过分析基于翻译单位的自动双语对齐模型的实验结果,本研究达到了对翻译单位本质的新认识:首先,翻译单位是一系列的源文单位,它们由于某种因素,如该单位内部各成分紧密相连、相对独立于上下文语境、没有歧义或者某些成分在译文中缺少对应而被视为一个整体进行翻译。也就是说,翻译单位身份之成立,既有可能是源文的形式特征或语义特征自身使然,也有可能是源文与译文对比分析的结果。其次,分析角度不同,翻译单位的大小也不相同。翻译单位本质上是动态的。基于翻译单位的双语对齐模型不仅为翻译单位理论研究提供了新的视角,而且为自动双语对齐提供了必要的语言学指导,因而有助于提高基于语料库的机器翻译系统的表现。本对齐模型在翻译单位的层次上进行双语对齐,从而避免了系统在不可能或不必要的层次上进行盲目地对齐。通过对通用的GIZA++统计词对齐结果进行增加、删减及检验等操作步骤,本对齐模型提高了自动双语对齐的数量和质量。另外,本对齐模型的实验结果为机器辅助翻译系统提供了有用的语言素材。它们可作为翻译记忆库或术语库中的内容呈现给译者,为其解决翻译问题提供参考,从而提高翻译质量和翻译效率。本研究的不足之处在于,作为将翻译单位应用于自动双语对齐研究的初步尝试,在选择合适的统计方法或计算模型来实现翻译单位的计算时还有很多不成熟的地方。本研究过于依赖GIZA++的词对齐结果,但是该对齐结果的正确率并不令人满意。另外,除上述计算语言学模型和资源之外,其它一些技术方法,如Wordnet等语义词典,理论上也能够应用于翻译单位的计算任务,但是它们在本次研究中并未得到详细讨论。最后,本研究提出了今后可能的研究方向。这主要包括:进一步分析基于翻译单位的自动双语对齐模型对统计机器翻译系统的具体影响,以及根据该双语对齐结果深入探究翻译单位的普遍规律。
其他文献
近年来,随着北极航道的开通以及极地资源的开发,冰区航行船舶的设计和建造得到了更多关注并获得了快速发展。吊舱推进器由于特殊的结构设计,能够大大提高船舶的机动性和操纵性,已成为极地船舶常用的推进形式。由于吊舱推进器与水域周围散布的碎冰发生间接或直接的作用,大大增加了其水动力载荷和冰载荷预报的困难。虽然国内外学者对开阔水域下的吊舱推进器开展了大量研究工作,但是冰水混合介质中吊舱推进器载荷预报分析技术尚未
随着经济全球化的快速发展,我国对外直接投资(Outward Foreign Direct Investment)和吸引外商直接投资(Inward Foreign Direct Investment)均表现出不断增长的趋势,对我国经济的多个方面发挥了重要作用。在这一的背景下,研究二者的互动关系具有重要的理论和现实意义。本文以OFDI和IFDI相关理论为研究基础,将OFDI与IFDI视为“流出”和“流
随着中国经济实力的增长,学习汉语的人越来越多。如何进行高效的对外汉语教学也成为必须应对的挑战。不同的语言、文化和学习环境的学生,在学习汉语时有不同的学习需求和方法。因此,必须加强非目的语环境下汉语教学的研究,特别是学习者习得特点和规律的研究,以便有针对性地开展海外汉语教学。目前,汉语作为第二语言学习策略的研究,大多关注目的语环境下留学生的学习策略,非目的语环境下汉语学习策略研究还没有受到足够的重视
绵马贯众是鳞毛蕨科植物粗茎鳞毛蕨Dryopteris crassirhizoma Nakai的干燥根茎和叶柄残基,味苦,微寒,有小毒,归肝、胃经。具有清热解毒、驱虫等功效,用于虫积腹痛、疮疡。现在多用于炎症和感染性疾病。本课题组前期研究表明绵马贯众富含间苯三酚类成分的部位具有抗H5N1流感病毒作用,而目前对间苯三酚类单体化合物抗H5N1流感病毒的研究尚属空白。H5N1禽流感病毒致病性强,且能传染给
石油具有稀缺性、不可再生性等特点,是关系国家经济发展与国民经济安全的重要战略物资。近年来,随着我国经济高速发展,原油进口量大幅上升,年进口量近2亿吨油当量,已成为继美国之后的世界第二大石油净进口国,对外依存度已超过50%。由于石油的特殊地位和重要性,各国围绕石油的争夺与控制从来没有停息过,极大地刺激了油价的大幅波动,对石油需求国尤其是我国产生了巨大冲击与损害。在全球自由贸易度越来越高的今天,世界强
作为增加就业、吸引外资、激励技术创新和促进经济增长的重要政策工具,中国政府从1980年代开始在城市中设立了多种类型的经济开发区。这些经济开发区在改革开放以后的三十年里对中国经济的全面崛起做出了重大贡献,尤其是高新技术产业开发区(以下简称“高新区”)的设立对中国建设创新型国家有重要影响。从1988年科技部实施“火炬计划”开始,高新区在中国城市开始设立,到2014年全国已有193座城市陆续设立了高新区
第一部分 乳腺癌组织中P125的表达及启动子甲基化水平和P53表达的相关性目的:探讨P125启动子甲基化水平和在乳腺癌组织中P125及P53的表达情况方法:收集于广西医科大学附属肿瘤医院2012年10月到2013年12月期间病理确诊的乳腺癌及癌旁组织100例,(癌旁组织是指取自距肿瘤大于2cm的瘤旁组织)。焦磷酸测序检测乳腺癌及癌旁组织p125编码基因POLD1启动子的甲基化水平。采用qRT-PC
目前已有诸多关于知庄章组的研究成果,但几乎未见从宏观上考察官话方言知庄章组历史演变的研究。文章首次尝试以“散点多线式”语音史的发展观为理论基础,利用文献考证法和历史比较法,全面梳理了官话方言知庄章组不同读音类型的历史演变过程。这一研究将为官话语音史的宏观研究提供新的借鉴。文章通过对官话方言知庄章组读音类型及其历史演变深入细致的考察,得出的结论有:第一,官话方言知庄章组五种主要读音类型的历史来源是:
背景与目的:胃癌发病居世界常见肿瘤第五位,世界范围内超过70%的胃癌病例发生在亚洲人群中,胃癌在我国癌症相关死亡肿瘤中居第二位,其主要原因是胃癌早发现、早期诊断手段不足,大多数胃癌患者确诊时即处于进展期。目前手术为主的综合治疗获益渐近瓶颈,靶向治疗、免疫治疗、细胞过继疗法等逐渐成为重要补充治疗手段。胃癌预后差除了二级预防不足外,其自身异质性高、早期淋巴转移、化疗耐药等也是不容忽视的治疗难点,针对胃
特大城市中的社会分层较为突出,不同社会利益主体对公共利益具有不同诉求,基层社会治理在政府主导下的政治体制改革和社会体制改革的基础上逐步加以开展。随着特大城市经济发展加速,社会活力得到前所未有的激发,社会流动愈加频繁、社会分化明显加快、文化融合与撞击更为常态化。人们对公共服务产品的需求呈现出多样化、多层次的特征。面对流动人口迅速增加对社会治理带来的挑战,面对高度市场化和国际化带来的社会阶层高度分化和