中文音译规范化的自动实现

来源 :中国科技术语 | 被引量 : 0次 | 上传用户:wqh4975156
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:为了顺应汉语规范化的基本国策和汉语国际推广的实际需求,不仅要在现在和将来的翻译工作中将人名、地名等中文翻译成规范的汉语拼音,还要将以前用旧方案翻译的相应名称转写成汉语拼音。本文根据威妥玛式拼写法与汉语拼音拼写法的对应关系,总结了自动转写的转写规则,开发了基于规则的威妥玛式拼音自动转写为汉语拼音的软件WG2PY,并自动转写了林语堂翻译的《浮生六记》中的译音字,取得了很高的正确率,实验数据也具有一定的覆盖率。
  关键词:中文音译,《汉语拼音方案》,自动转写,威妥玛-翟里斯式,WG2PY
  中图分类号:H083;H125.19;H125.2;H159文献标识码:ADOI:10.3969/j.issn.1673-8578.2016.06.003
  Abstract: In order to meet the requirement of broadcast Chinese, people often need to translate the present Chinese personal names, place names and other proper names into other languages in Pinyin style, and also, to rewrite names translated in other styles in the past to Pinyin. This paper summaries the rewriting rules according to the respective relationship between WG and PY, designs a rule based software named WG2PY to rewrite the WG names in novel Six Chapters of A Floating Life into PY ones.
  Keywords: Chinese transliteration,Chinese Pinyin Plan,autorewriting,WG,WG2PY
  一背景介绍
  在1982年国际标准化组织(ISO)决定采用《汉语拼音方案》作为国际标准的汉语罗马字母拼写法之前,在国内外的翻译、通信、交通诸领域,汉语人名英译采用的旧的罗马字母拼写法很不统一,比较流行的有威妥玛式、国语罗马字、拉丁化新文字等[1]。为了顺应汉语规范化的基本国策和专名音译的大趋势,不仅要在现在和将来的汉–英翻译工作中将汉语人名翻译成规范的汉语拼音,还要将以前用旧方案翻译的人名转写成汉语拼音。但人工转写往往费时费力且很容易出错,转写的差错造成翻译质量低下的例子屡见不鲜。
  此外,由于历史原因,香港和澳门地区的新语文政策也刚推行不久,本地人对《汉语拼音方案》的认同还不一致,中文音译时并没有完全按照《汉语拼音方案》。台湾地区由于众所周知的原因,不同于大陆一套汉语拼音走天下,存在着多种拼音系统[2],其中文音译的不一致现象和混乱程度也就可想而知了。
  然而,中文译音的汉语拼音化的基本国策是既定的,这个趋势谁也逆转不了。事实上,1958年,中国第一届全国人民代表大会通过《汉语拼音方案》后不久,国际标准化组织就已经决定首先在地名音译上采用《汉语拼音方案》[3]。之后,1979年6月15日联合国秘书处发出通知,以“汉语拼音”的拼法作为各种拉丁字母文字中转写中国人名和地名的国际标准[4]。到了1982年,国际标准化组织决定采用《汉语拼音方案》作为汉语罗马字母拼写法的国际标准。然而,由于各种原因,世界各国对此反应不一。法国等欧洲国家率先响应,各国的出版物和图书馆很快就采用了汉语拼音。但是美国迟迟没有采用,直到1998年,美国国会图书馆才决定改用拼音,并准备以三年时间,花费几千万美元,把馆藏70万部中文图书的目录全部改成拼音[5]。近年来,随着汉语国际推广力度的增加、各国孔子学院的设立以及语言信息标准化的需要,汉语拼音的作用越来越明显。因此,对于历史所遗留的非汉语拼音式的中文音译罗马字母拼写式,都存在一个转写的问题。然而,诚如前面所述,人工转写往往费时费力且很容易出错。
  本文根据威妥玛-翟里斯汉字标音体系(WG,见下文)与汉语拼音汉字标音体系(PY,见下文)的对应关系,总结了自动转写的转写规则,开发了基于规则的威妥玛式拼音自动转写为汉语拼音的软件WG2PY,并自动转写了林语堂翻译的《浮生六记》(Six Chapters of A Floating Life)[6]中的译音字,取得了很高的正确率,实验数据也具有一定的覆盖率。
  二自动转写实现
  1.定义
  拼音字——一组以某种汉字标音体系中的音素为标准而组成的音素序列(音节)。如hsin为威妥玛-翟里斯标音体系中的一个拼音字;xin为汉语拼音标音体系中的一个拼音字。
  拼音词——一组以某种汉字标音体系中的音节为标准而组成的词级音素序列。如ch’ünfangp’u为威妥玛-翟里斯标音体系中的一个拼音词;qunfangpu(“群芳谱”)为汉语拼音标音体系中的一个拼音词。
  WG——威妥玛-翟里斯汉字标音体系。指以英国人威妥玛(T. F. Wade)所创建的汉字标音体系为基础后经翟里斯(Giles)修订的汉字标音体系,用该体系标音的拼音字和拼音词常见于1979年前出版的各种中文典籍英译著作或者未采用汉语拼音方案的外国人所写的英文著述,用以音译中国人名、地名、机构名等中的汉字。
  PY——汉语拼音汉字标音体系。指以汉语拼音方案为蓝本的汉字标音体系,用该体系标音的拼音字和拼音词常见于1979年后出版的各种中文典籍英译著作或者已采用汉语拼音方案的外国人所写的英文著述,用以音译中国人名、地名、机构名等中的汉字。   同音字——WG中不同音节对应相同PY中某一音节的拼音字互称“同音字”,如WG中che对应于PY中的zhe,WG中的cheh也对应于PY中的zhe,则che和cheh互称同音字。
  2. 自动转写软件WG2PY
  功能:将威妥玛-翟里斯汉字标音体系的拼音字自动转写为汉语拼音汉字标音体系的拼音字。
  处理模块及算法:程序由切字处理、转写处理和后处理(输出)三个模块构成。
  切字处理模块:从给定的拼音词中根据“WG2PY拼音字切字底表” 采用正向最大匹配法切分出正确的拼音字(包括连字符处理、所有格撇号处理等)。流程为:(1)输入一个待转换的WG串S1,和已转换的PY串S2;(2)如果S1为空串,转6;(3)从S1的左边复制一个子串W作为候选词,W尽可能长,但长度不超过Max_WG(设定为10);(4)如果在切字底表中找到W,则将W转换为相应的拼音串,并将其加到S2的右边。并且从S1的左边去掉W,转(2);(5)去掉W中最后一个WG串,转(4);(6)结束。
  转写处理模块:根据基础规则、转写规则和补充规则对切好的拼音字进行转写,基础规则见“WG2PY基础规则库”,转写规则见“WG2PY转写规则库”,补充规则见“WG2PY补充规则库”。
  后处理(输出)模块:包括大小写、连字符、撇号的处理等。具体如下:(1)大小写的转写规则:如果一个输入的WG串的首字母是小字母,那么它的转换后的PY串的首字母也转换为小写字母,反之亦然;(2)连字符处理规则:如果一具WG串中是连字符“”加上元音字母(如a、e、o),那么转写成PY串则转写为撇号“’”加上元音字母(如a、e、o),其他情况直接去掉连字符“”,在PY串中不保留任何痕迹;(3)所有格撇号处理规则:只需要把“’s”放到切字底表中,采用正向最大匹配法,即可做正确切分。
  三实验内容与结果
  1. WG2PY拼音字切字底表
  “WG2PY拼音字切字底表”是采用正向最大匹配法切字的基础。根据WG与PY的声母、韵母对应关系,我们参照威妥玛《语言自迩集》[7]中的“音节总表(Sound Table)”和“北京话音节表(The Peking Syllabary)”拼出了420个基本拼音字,后根据WG的“轻音”规则(见下文)拼出了277个同音字,这420个拼音字和277个同音字共同构成了“WG2PY拼音字切字底表”。
  2. WG2PY规则
  WG2PY规则由基础规则、转写规则和补充规则组成,分别建立“WG2PY基础规则库”“WG2PY转写规则库”和“WG2PY补充规则库”。
  “WG2PY基础规则库”中共有规则49条,分为Consonants(21条)、Basic Vowels(8条)、Basic Retroflex Syllables(4条)、Basic Sibilant Syllables(4条)、Semivowel Initials(3条)和Basic Finals(9条)。基本对应于《汉语拼音方案》中所有的声母表和韵母表。
  “WG2PY转写规则库”中共有规则420条,对应于“WG2PY拼音字切字底表”中的420个基本拼音字(音节)。
  “WG2PY补充规则库”中现有规则109条,分为“轻音”和“固化”两部分:轻音是指WG中ng和h的发音规则,其中和ng相关的规则有10条,和h相关的规则有59条;固化是指不符合上述所有转写规则但又在外文音译中已经固定下来的中文译音,如Peking>Peking(“北京”),chow>zhou(“州”,用于地名),king>jing(“京”,用于地名),kiang>jiang(“江”,用于地名)等,目前已收录40条规则。
  3. 测试语料
  这里的语料不是指原文全文或整句,而只是WG拼音词(字)和PY拼音词(字)。这些拼音词(字)的获取可以从1979年以前出版的各种中文典籍英译著作或者未采用汉语拼音方案的外国人所写的英文著述中获得。本实验中我们选用清人沈复所著、林语堂先生英译的小说《浮生六记》,从中获取WG拼音词322条,涉及拼音字235个(字型而非字例)。
  4. 实验结果
  以转写正确率作为实验结果的评价指标,正确率计算公式如下:
  经WG2PY转写后生成的235个PY拼音字中,转写正确的拼音字字数为207个,全部测试拼音字字数为235个,转写正确率为88.09%。
  同时,我们以覆盖率作为实验内容的有效性评价指标,覆盖率计算公式如下:
  覆盖率=全部测试拼音字字数/拼音字表中的拼音字总数
  “拼音字表中的拼音字总数”是指“WG2PY拼音字切字底表”中的拼音字字数,为420+277个,因此覆盖率为33.72%。
  四实验结果分析
  1.实验结果中覆盖率偏低
  这是由于在我们目前的科研条件和科研环境下,1979年以前出版的各种中文典籍英译著作或者未采用汉语拼音方案的外国人所写的英文著述较难获取,因此从中提取测试拼音字的难度较大。
  2.转写错误分析
  实验中转写错误的拼音字共有28例,其错误原因可以分为以下三类:
  第一类:撇号处理。WG2PY的转写过程中的撇号出现有三种情况——(1)WG中的送气符,如Ch’ao,这种送气符会出现在声母p、k、t、ch、ts和tz与跟在它们后面的元音之间,即p’、k’、t’、ch’、ts’和tz’;在PY中无送气符号。(2)PY中的隔音符,如Xi’an,这种隔音符会出现在汉语拼音a、o和e开头的音节连接在其他音节后面从而使音节的界限发生了混淆的时候;在WG中的隔音符是以连字符“”的形式出现的,如yüan。转写时Ch’ao要转写成Zhao,yüan要转写成yu’an。但实际文本中送气符的使用较为混乱,经常会出现该用送气符的时候没有用,而不该使用送气符的时候却用了的情况①。撇号出现的第三种情况比较棘手,即(3)拼音字后接名词所有格的符号时,如Wang Hsüchou’s。理论上讲,任何音节后面都可以跟名词所有格,当然也包括声母p、t、k、ch、ts和tz。当所有格的撇号出现在这六个声母之后时就会和送气符相混淆②。如Wang Hsüchou’s转写结果应为Wang Xuzhou’s。实验中出现因送气符而产生的转写错误拼音字例有5例。   第二类:ü和u的处理。WG中ü和u的使用也较为混乱,实际语料中经常会出现该用u的时候用了ü,而该用ü的时候却用了u的情况,以后者居多(是不是因为输入时键盘上没有直接的ü的输入键的缘故?)。而PY中ü和u的情况也比较特殊,详见《汉语拼音方案》。实验中出现因ü和u混用而产生的转写错误拼音字例有2例。
  第三类:译者的错误。这主要体现在译者本身的汉语发音水平上。译者在将中文音译为WG时尚无通用的普通话,而当时的北京官话还没有到现在的普通话这样普及的程度,因此,译者本身不可避免地带有自己的口音和方言,他在翻译作品中中国人名、地名时就会依据自己的口音来进行翻译。林语堂先生是福建人,因此在他的口音中有明显的闽方言的特征,如将“zhai(斋)”读成“zai(灾)”,将“bai(白)”读成“bo(伯)”等。因此在《浮生六记》中他将“李白”音译成“Li Po”,将“赵省斋”音译为“Chao Shengtsai”。那么, WG2PY在转写时就只能根据规则将“Li Po”转写成“Li Bo”,将“Chao Shengtsai”转写成“Zhao Shengzai”,造成了转写错误。实验中出现因译者口音而产生的转写错误拼音字例有21例。
  五结语
  由上述分析可见,WG2PY在进行WG转写时除了译者的口音因素之外,送气符时用时不用和ü、u的混用是造成转写错误的主要原因。据此提出了两点新的思路:(1)通过分析转写错误中译者的口音因素,可以进行译者的方言研究;(2)除去译者因素,软件的转写错误率只有7/235=3%,也就是说转写正确率可达97%。如此高的正确率一方面使我们对该转写系统抱有很大的应用期望,另一方面也促使我们尽快想办法消除这3%的错误率。
  目前只是实现了WG到PY的自动转写,下一步工作是实现其他拉丁字母化拼音法如国语罗马字、拉丁化新文字等到汉语拼音的自动转写以及它们的一体化。同时,面向大数据的真实文本中WG拼音词的自动识别与提取也应成为后续研究的一大内容。
  注释
  ① 事实上,送气符和隔音符的符号并不相同,前者为“‘”而后者为“’”。但可能由于“‘”在计算机录入时需切换到全拼状态等原因,在正式印刷品中WG的送气符也用“’”表示,所以造成了混乱。
  ② 查“汉字拼音字切字底表”中的420条音节,没有六个声母出现在音节末尾的情况。因此当音节以s结尾时,就判定其为名词所有格形式,只做切字而不做转写。
  参考文献
  [1] 吴鸿适.关于科学技术名词术语翻译规范化的问题[J].中国翻译,1998(3):27-31.
  [2] 吾云.台湾“拼音大战”的历史[N].北京晚报,2016-01-22(43).
  [3] 李宇明.中华文化迈向国际新步伐——写在中文罗马字母拼写法国际标准(ISO 7098:2015)修订出版之时[N].光明日报,2016-05-01(07).
  [4] 戴金旺.“拉丁字母”和“罗马字母”[J].科技术语研究,2006(1):44-46.
  [5] 周有光.21世纪的华语和华文[M].北京:三联书店,2002:1-3.
  [6] [清]沈复.浮生六记[M].林语堂,译.北京:外语教学与研究出版社,1999.
  [7] [英]威妥玛.语言自迩集——19世纪中期的北京话[M].张卫东,译.北京:北京大学出版社,2002.
其他文献
美国东部时间6月21日(北京时间6月22日),国际顶级物理学刊物《物理评论快报》(Physical Review Letters)在线发表了上海交通大学贾金锋教授及其合作者率先观测到物理学家寻找多年的神秘粒子——马约拉纳费米子(Majorana fermion)的论文。在物理学领域,基本粒子有两大家族:费米子家族(如电子、质子)和玻色子家族(如光子、介子),分别以物理学家费米和玻色的名字命名。一般
期刊
2015年11月19日,全国科学技术名词审定委员会在北京召开了2015年度第二次常委会会议。全国科技名词委主任路甬祥,副主任孙寿山、武寅、裴亚军,常委张礼和、张焕乔、陆汝钤、陈运泰、曲爱国、贺化、韩毅、张晓林、柳建尧,代表何鸣鸿、刘青、宋军、张社卿 、陈文君、蔡长塔、谢为群、朱建平、严晓辉、董川等近30人参加了此次会议。会议由孙寿山副主任主持。  会议审议了全国科技名词委第七届委员会全体会议的议程
期刊
白血病是严重威胁人类健康的一种恶性血液肿瘤。虽然造血干细胞移植能够有效治愈白血病,但移植毒性及严重并发症限制了移植技术的应用。而随着微移植技术的问世与发展,白血病乃至恶性肿瘤的治疗将进入“高效微毒新时代”。  微移植是一种在保存受者正常免疫功能的条件下进行人类白细胞抗原配型不相合的造血干细胞移植的治疗模式,包含化疗和供者造血干细胞输注两部分,需要经过4~5个疗程的序贯治疗。治疗间隔期和随访期患者能
期刊
中图分类号:N04;G23文献标识码:B文章编号:1673-8578(2015)06-0005-04  收稿日期:2015-11-17修回日期:2015-12-13  作者简介:王琪(1980—),女,湖北武汉人,博士,全国科学技术名词审定委员会副编审,研究方向为术语学。通信方式:wangq@cnctst.cn。  引言  《中国科技术语》(原名《科技术语研究》)创刊于1998年,而她的历史已有3
期刊
摘 要: 近20年,“欧盟”历经几次东扩。欧洲大陆在经济、教育和意识形态方面日趋一体化,这也促使欧洲学者对“知识工程”、现代语言学与术语学的关系、“知识本体”与现代术语学理论和实践关系的研究日趋深入。法国学者在此期间对现代术语学的贡献正是这个历史时期的缩影。文章侧重从术语学研究与知识本体构建相结合的角度,介绍、分析法国学者对现代术语学所做的贡献,以期追踪国际术语学发展的前沿,为中国术语学建设提供一
期刊
2015年3月23日,《大气科学名词》(汉藏对照本)在拉萨首发,标志着中国大气科学术语首次系统完成藏语文编译工作,填补了大气科学藏文名词术语研究的空白,有助于提升青藏高原气象防灾减灾、应对气候变化和生态文明科技知识普及能力。  该书编译委员会主任索朗多吉在当日的首发式上说,编译工作由西藏本土气象及藏语文专家承担,以《大气科学名词》(第三版)(全国科学技术名词审定委员会于2009年审定公布)汉文版为
期刊
一张长宽不过15厘米、厚度不到1毫米的“纸”,电容可以达到1法拉,可媲美目前市场上的超级电容器。这就是瑞典林雪平大学有机电子实验室的研究人员与丹麦和美国同行合作开发出的新材料——储能能力出众的“能源纸”,其由纳米纤维素和导电聚合物制成,可反复充电数百次,每次充电只需要几秒钟。  据每日科学网近日报道,这种“能源纸”的外观和感觉有点像塑料材质,研究人员甚至拿它折了一只天鹅,证明它也具有一定的强度。为
期刊
摘要:《语文建设》曾刊登一文,对于《中华人民共和国宪法》第四十九条第一款“婚姻、家庭、母亲和儿童受国家的保护”中“母亲”一词的使用提出了疑问——认为“母亲”一词使用不当,当修改为“妇女”。文章从语言学、术语学和法学视角,论证了该法条的确当性,并认为:《宪法》语言有其自身的法理精神。  关键词 :母亲,妇女,语言学,法学  中图分类号:N04;D92文献标识码:A 文章编号:1673-8578(20
期刊
摘要:从术语学视角探讨了法律术语“直系亲属”的概念外延,指出“直系亲属”与“直系血亲”的概念之间应该是同一关系。“配偶”“姻亲”被错误纳入“直系亲属”的原因在于混淆了身份与因身份而获得的权利之间的关系以及相关法律规定的误导。对法律术语“直系亲属”的常见英译immediate family和direct relative进行了辨析,阐述了上述译法不适当的理由,并提出了符合术语学观点的译法lineal
期刊
中图分类号:N04文献标识码: BDOI:10.3969/j.issn.1673-8578.2016.01.006  尊敬的路甬祥副委员长,白春礼院长,各位委员,各位代表:  非常高兴参加全国科技名词委第七届全国委员会全体会议。30年前,国务院批准成立全国自然科学名词审定委员会,代表国家审定公布名词,自此,我国科技名词规范化工作走向了正轨。30多年来,全国科技名词委工作取得了重大进展,尤其是第六届
期刊