论文部分内容阅读
汉文化圈的“汉字”,字体多样化,包括中国大陆地区、新加坡、部分海外华人聚居区使用的简化汉字,中国港澳台地区、部分海外华人聚居区使用的繁体汉字,日本使用的国字,韩国汉字,越南独有的汉字——喃字。另外,汉语体系也呈现多样化,大陆地区使用“普通话”标准,台湾是“国语”,东南亚的华人聚居区是“华语”标准。
可以说,多样性是“汉字”的本质属性。这意味着即使是同一个汉字,在不同文化地区,它的字体结构有所不同、笔画多少有所不同、书写顺序有所不同、读音发音有所不同,乃至同一个字的拼写方案也会不同。
正是由于汉字的多样性,使得汉字在电子化进程中面临的技术难度极大。汉字的电子化,通俗的说分为六大领域,分别是:基础研究,比如汉字编码字符集、通用汉字样本库等;输入技术,比如汉字键盘输入法、手写输入、汉字语音输入、文字识别等;输出技术,比如汉字激光照排、汉语语音合成等;存储技术,比如汉字库标准等;转换技术,比如繁简转换等;信息处理,比如汉字情报检索、汉字文本校对、机器翻译等。如汉字语音输入,既要受到不同标准汉语体系的读音影响,还要受到中国各地方言口音的影响。目前最让文化界头痛的是,中国传统古籍的数字化保存,涉及到数以万计的中国正体字和异体字、常用字和冷僻字等,既牵扯到汉字字体库的丰富扩展,又牵扯到繁简汉字转换,比如,“二十四史”系列典籍现在最可靠的数字化文本,依然是图片格式的,并非字符格式,并未做到真正意义的数字化,既不能进行检索,更不能在互联网上实现“数字共享”。电子化对中国传统文化传承的促进作用,目前还刚刚启动,效果还很不理想。
诡异的瑕疵
正是因为汉字文化圈的多样性,所以,“信息交换”是汉字电子化最基础和最根本的部分。各个汉字的使用地区都制订了一系列汉字字符集标准。比如,中国在1974年8月开始了748工程,包括了用计算机来处理汉字,启动了各种研究工作,于1980年公布了GB 2312-80汉字编码的国家标准,最新的GB 18030收录27533个汉字。中国港澳台地区使用Big5码,收录13053个汉字。还有“中日韩统一表意文字编码”,收集了汉语、日语、韩语中的汉字集,越南随后也加入了这一系统。
此外,我国的汉字研究存在着学术空白,也使得汉字的电子化出现了“瑕疵”。比如,晚清时期,西学东渐,大量的西学文献和科学著作被翻译成中文,出现了一大批新造的汉字。比如在晚清,人们常用带有“口”字旁的字来翻译外来词,把Ice-cream翻译成“冰(口忌)(口廉)”。“ (口忌)(口廉)”二字,在当时很常见。西方的度量衡名称在晚清,一般有两种译法,一是音译,一是新造汉字。后者,比如:
(1)“(安百)”或“(百安)”表示 hectare(公顷);
(2)“(咅舍)”表示 bushel(蒲式耳);
(3)“(平米)”表示平方米;
这些字,今天已经被废弃,但是在清末却是作为“常用字”或者“度量单位名称”被广泛使用,成为汉字在一个历史时期的面貌,理应成为“文字记忆”保存下来。可是,这些字被《汉语大字典》所遗漏,在电子化时代也不被提及。
母语汉字的潜在危机
电子化对语言文字最大的损害,是对母语文字毁灭性的冲击。很多国家对民族语言进行了“计算机化”,通常的做法是取消民族语言中的特殊字符,尽可能以26个标准拉丁字母代替,许多弱势民族的母语文字因此被抛向灭绝的边缘。进入了互联网时代,互联网的通用语言出现了,又进一步强化了对母语文字的冲击,造成了今天我们所熟知的横亘在强势民族和弱势民族之间的“数字鸿沟”,数以百计的非拉丁化的母语文字,被无情地挡在信息社会的门外。
汉字是非拉丁化的文字,电子化对汉语的冲击,我们不得不加以重视。目前,中国大陆地区使用的拼音输入法,是以普通话语音为标准的,也就是说只有学会了汉语拼音方案,才能使用这种输入法。
众所周知,汉语在中国大陆地区有七大方言区:北方方言、吴语、客家话、闽语、粤语、湘语、赣语。还有一些方言区,如晋语、平话和徽语。电子化为母语汉字设置了“数字门槛”,我们有平稳过渡的例子,那就是广州话拼音方案,由中国在1960年公布,用于拼写广州话的语音在中国大陆通行;在海外流行的粤语拼音方案,是中国香港的粤语拼音方案以及粤语耶鲁拼法。有粤语的拼音方案,也就出现了粤语拼音输入法。因为粤语拼音输入法的重码率较低,所以它的输入速度,和汉语拼音输入法大体持平。
比火星文、脑残体影响更为深刻的,真正将引发汉语地震的是汉语语法的电子化,如“**+ing”这个语法结构,是汉语附加了“ing”这一英语后缀,如:
睡睡ing:动词+ing
汗ing:名词+ing
吃饭ing:短语+ing
我在看书ing:句子+ing
这个语法“地震”,实际上反应了语言学中的“句法借用”现象,是英文的ing语法被复制到汉语中来,两种不同形态的语言碰撞在一起,激发了强烈的新鲜感,同时,这种语法方式简单明了,适合互联网阅读,因此被广泛使用。
我们对网络语言不能狭隘地认为是对汉语的破坏,汉字的规范必须是开放型的,既不要硬性规定,也不要过多限制,让汉字在电子化变革中自然演变,表示平方米的“(平米)”字在历史中被自然淘汰,那就让火星文、脑残体等网络语言接受历史的考验吧。
繁简汉字的 “变脸”
汉字简化改革,是近代以来,汉文化圈各个国家普遍推进的文字改革。汉字的电子化,主要的一个方向就是转换技术。目前对繁简汉字的电子转换,瓶颈难题并非技术因素,而是汉字简化的规律性困难,集中在三个方面:
第一是“一简对多繁”,多个繁体字遵循“同音代替”原则,简化成了同一个字,比如:
并——并、併、並
它——它、牠、祂
台——台、臺、檯、颱
第二是“一繁对多简”,同一个繁体字在简化中出现了多种字体,比如:
餘——余、馀
麼——么、麽、吗
第三,某些繁体字在特殊的词汇中不能被简化。濛的简化字是“蒙”,但“濛江”这个地理名词中的“濛”字却不能简化。噁的简化字是“恶”,但专有名词“二噁英”中的“噁”字却不能简化。
以上三点,意味着繁简汉字的电子转换埋伏着十分巨大的安全风险,只能作为人工繁简转换的辅助工具。
电子化转换除了“汉字转换”、“编码转换”之外,还有一个“用语转换”,中国两岸三地的部分用语不同,比如
打印机(大陆)——印表机(港台地区)
激光(大陆)——雷射(港台地区)
汉字文化圈内部的不同国家也存在着用语转换的问题,比如:“总理塔信•秦那越警中校偕夫人坤仁朴乍曼•秦那越等一行,于昨午赴春武里府视察主办世界童子军集会的齐备度。……”(泰国《总理亲自视察世界童子军营》,《中华日报》2002年12月11日)其中的“坤仁”是泰语对女士(khun ying)的尊称,即汉语中的“女士”之意。
汉字文化圈内的转换技术隐含着巨大的安全风险,同时也是技术创新和完善的巨大空间。
数字遗产
汉字经历了两次巨大的技术变革,即印刷术和电子化,回顾汉字的印刷术变革,最为沉痛的历史教训是《永乐大典》的消亡,明永乐年间修订《永乐大典》是中国传统文化最大的一次整理和传承,可惜《永乐大典》没有被制版印刷,始终处于手工摹写的形态,历经数百年沧海桑田,《永乐大典》几近消亡。如果封建皇帝以修建圆明园物力的百分之一,完成《永乐大典》的印刷版样,则中华文化的当代面貌肯定是另一番灿烂景象。
新千年里,联合国教科文组织颁布了“数字遗产宪章”,规定:“(数字遗产)是由人类的知识和表达方式的独特资源组成。它包括以数字方式生成的或从现有的模拟资源转换成数字形式的有关文化、教育、科学以及其他领域的信息”。数字遗产的现代人文主义的全新的文化制度和建设路径,框定了人类文化遗产的数字化传承的未来归宿。
从唐宋以降一千多年里,中国的传统文化遗产实现了印刷术承载,如今对汉字而言,向数字化遗产的转型,这已经是电子化时代汉字未来演变的必然方向。汉字在电子化时代所遇到的挑战和瓶颈,将不仅仅是IT和互联网技术问题,还将是文化语言和人文学科的命题。我们处于汉字电子化的黎明时代,我们无法预测千年之后数字化的中华文明,但是,我们一定要避免这样的历史悲剧:《永乐大典》被挡在了印刷术时代之外,最终几近消亡。现在,我们一定尽最大的文化努力,保证中华传统文化“全身完好”地迈过“电子化门槛”。