论文部分内容阅读
摘 要:本文以表音汉字的规律性、适应性和适用性,论证了表音汉字对我国信息社会的重大影响和使用价值:发展中文的计算机软件、推进中国的信息产业、提升中国工业的自动化水平、促进我国的人工智能运用。进而指出表音汉字与汉语国际传播战略的密切关系:以汉字的优势与其它文字比拼,才能取得国际传播的优势地位。
关键词:表音汉字 三维结构 计算机语言 信息产业 人工智能 传播战略
《走自主信息化之路》一文,已经收进IEEE文库。该文章的发表,使表音汉字走向世界迈开了第一步。当今信息社会,语言竞争非常激烈,在谈论汉语国际传播时,首先就有一个汉语国际传播战略问题。
一、展现表音汉字,事关汉语国际传播战略
什么是汉语国际传播战略?大家知道,优胜劣汰是一切事物发展、变化的总趋势,也是汉语国际传播战略必然遵循的基本规律。汉字拼音化,就是展现汉字的优势。以汉字的优势与其它文字比拼,才能取得国际传播的优势地位。
当今世界,文字大致可分为印欧系语言的拼音文字系统和汉字系统。拼音文字系统是多音节文字系统,汉字是单音节文字系统。汉字由象形、表意到拼音,可以说:汉字是唯一代表世界文字发展史全过程的文字,这是一件很了不起的大事。西方的拼音文字已经将象形、表意抛弃了,只剩下一个拼音阶段。
(一)西方拼音文字几乎是“纯习俗”符号,而汉字是有理据的
《符号学》指出:“语言,是最庞大的几乎‘纯习俗’符号”[1]。这是西方人对自己拼音文字作的结论。所谓“纯习俗”符号,即全靠约定俗成,无理可讲,相沿成习。说明西方拼音文字是无理据的。与汉字相比,简直是天渊之别。
围绕汉字拼音,中华民族艰苦奋斗了几个世纪,盖因没有找到汉字的编码规则。但是,要说汉字有编码规则,那将是有违文字发展规律的事,既没有人相信,也没有人去做。可是,汉字在形成形声字时,已经是在以字造字,是有意识的,与当时的社会哲学思想密切相关。汉字沿着形声字的道路发展,必然形成“音、形、义”三维结构,这是我国历代学者不断研究与总结的结果。因此,汉字发展成为有规律的文字是必然的。
首先,汉语已经实现了拉丁字母拼音,总计416个单音节。因此,汉字必然是单音节字,它与西方拼音文字的多音节字相区分,这是汉字的第一个特点。“汉语拼音”只能给“汉字注音”,形成很多同音字。因此,它还不是文字,不能用来支撑计算机语言。
其次,汉字以形声字为主。形声字已经占汉字总数的90%。由于形声字的构字已经模式化,即:形声字=部首+基本字。形声字的部首不发音,是符号,所以部首是字“缀”。可惜,这一特征长期被国人所忽视。文字是庞大的体系,汉字416个单音节字,不通过加“缀”,是不可能形成庞大的文字体系的。语言学家索绪尔说:“语言是一连串的区分行为,在模糊不确定的概念层与同样模糊不确定的语言层上区分出相应的单位。”[1]语言,正如任何符号系统,其特征是区分一物与组成一物两者没有什么不同。通过加“缀”来区分同音字,这是汉字的第二个特点。
第三,汉字的同音基本字发展经历了两千多年,趋于稳定。在字和字之间,已经形成“音、形、义”的“三维结构”体系(参阅陈耀西,陈红根《走自主信息化之路》一文)。这个体系是规律化的。如果这个体系不是规律化的,即使加“缀”,也不可能实现拼音化。这是汉字的第三个特点。
到2004年,因为找到了实现汉字拼音的方法,即找到了汉字的“音、形、义”三维结构规律,故可在国家推行的《汉语拼音》的基础上,用加缀法,以一个汉字复制一个拼音字。它不是生拼硬凑,之所以能顺利地实现汉字拼音化,是由于有“音、形、义”三维结构理论的支撑。不然,庞大的汉字体系,是无法着手进行拼音化工作的。所以,表音汉字不是无源之水、无本之木,而是在汉民族的语言文字风俗习惯下成长的拼音文字。形声字就是加缀字,这是汉民族的文字特色。所以汉字拼音化是水到渠成、顺理成章之事。
当西方人对西方拼音文字作的结论是‘纯习俗’的符号时,而东方文化的代表——汉字,却被发现是有规律的“音、形、义”三维结构。按照汉字的这个编码规则,用西方任何一个国家的拼音字母表,都可以拼出汉字的拼音文字。无论是法国、英国、德国、还是俄国的拼音字母表,除个别发音与汉语发音习惯不同外(例如:俄语的卷舌音,汉语就没有。我国采用的是拉丁文字母表。)。如果将此问题引申一下,这个问题将说明:汉字在世界文字中是唯一具有普遍意义的文字。只有寻找到汉字的编码规则后,人们才知道汉字的可贵。
(二)正视英语热
2011年5月18日,《教育部、国家语委发布2010年中国语言生活状况报告》指出:“青少年汉语能力和汉字书写能力正在下降和退化。在一个文化高速传播的时代,我们的母语却正在被淡忘,这是一个悲哀。”这个报告说明教育部、国家语委敢于正视问题。
在信息社会,计算机无孔不入。计算机硬件的核心是芯片,计算机软件的核心是计算机语言。现今我国没有中文的计算机语言,全都是英文的计算机语言,例如:BASIC语言、FORTRAN语言、C语言等,中文进入不了中央处理器。特别是数量巨大的库文件,英语在编程领域的广泛应用,使得英文垄断了软件领域。在这个范畴里,汉字事实上已经被边缘化。信息社会,我们的母语不能支撑计算机语言,不能编软件,已经被边缘化,青少年当然淡忘母语,转向英语。现在,哪一个行业不用计算机?哪一所学校不学英语?甚至连中国幼儿园的小朋友也在学英语。对于这种现象必须引起我们的高度重视。
(三)正确认识汉字的作用
《符号学》认为:“人类文化是一种语言文明,大部分规模较大的符号体系,是建筑在语言这初始体系之上的二度体系。”[1]语言是“初始体系”,是“基准模型”,是区别计算机语言等人工语言的自然语言。“语言不但是人类社会最大的符号体系,而且大得不成比例,其他符号体系与之相比实在太小,而且全都可以被语言混杂、解释、置换。”[1]只有自然语言是最完善、最科学的符号体系。社会发展到今天被称为信息社会,人们一下子将注意力集中在语言学上,因为计算机语言就是自然语言的二度体系,它们的关系如下: 自然语言——→计算机语言——→机器语言(ASCII码)
语言和信息的关系成为当今社会最基本的、最核心的关系,这个关系处理得好与不好,不但涉及到社会发展的快慢、国家的强弱;而且关系到民族的生死存亡。因为只有自然语言才是计算机语言的支撑、解释体系。如果一个国家的计算机语言不是由本国的自然语言支撑,那么它必定要靠编译成计算机语言的那种自然语言支撑。社会由工业社会向信息社会转型,要求汉字适应信息社会的需要,现在汉字实现了拼音化,就应该急起直追,用表音汉字编译中文的计算机语言。使计算机语言适应汉民族的语言风俗习惯,发展中文的计算机软件,推进中国的信息产业,提升中国工业的自动化水平。
但是,我国目前使用计算机却是“借用”英语为桥梁,汉字内码用的是阿拉伯数字编码。我国目前还没有一台真正意义上的国产计算机。计算机“识别”汉字问题并没有真正解决,当然更谈不上计算机“理解”汉字问题。这就是不解决汉字拼音化的严重问题。
大家知道,在利用ASCII码时,西方的拼音文字都用一个字节来保存,一个字节由8个二进制的位组成(注:二进制是我国发明的),用来表示无符号的整数的话,范围正好是=0~255。而严重的问题出现在东方文字,中国、朝鲜和日本的文字包含大量的汉字符号。例如,中国的文字不是拼音文字,汉字作为符号有数万之多,远远超过256个字符,因此,ISO的8859标准实际上不能处理中文的字符。中国的专家通过借鉴ISO8859的编码思想,认为:既然一个字节的256种字符不能表示中文,就使用两个字节来表示一个汉字。汉字的编码问题好像是解决了,其实不然。台湾也使用中文,由于历史的原因,那里没有使用大陆的简体字,还在使用繁体字,而且台湾也制定了一套表示繁体中文的字符编码,称为BIG5。不幸的是,虽然台湾也使用两个字节来表示一个汉字,但没有像我们兼容ASCII一样兼容简体字,他们使用了大致相同的编码范围来表示繁体的汉字。所以ISO8859的悲剧又出现在同样使用汉字的中国人身上了。同样的编码在大陆和台湾的编码中实际上表示不同的字符,大陆的玩家在玩台湾的游戏软件时,经常会遇到乱码的问题,根源就在于:大陆的计算机默认字符的编码就是GB2312,当碰到台湾使用BIG5编码的文字时,就会做出错误的转换。由于历史和文化的原因,日文和韩文中也包含许多的汉字,像汉字一样拥有大量的字符,可是,日韩语言的字符编码同样与中文编码有冲突,日文电脑游戏在大陆上一样也会出现无法理解的乱码。在20世纪80年代后期,互联网出现了,一夜之间,地球村上的人们可以直接访问远在天边的服务器,电子文件在全世界传播,在一切都在数字化的今天,计算机内存中用阿拉伯数字编码的汉字到底代表什么字?这就成为一个真正的大问题。
当汉字表音化之后,由于汉字可用拉丁字母表示,汉字即可利用二进制编码,以一个字节来表示一个表音字字母。于是,以汉字为载体的东方文字就可以以一个编码表出现在互联网上。表音汉字与简体、繁体汉字兼容,中国大陆和台湾的汉字编码是同一的、一致的。日文和韩文中的许多汉字也与繁体汉字兼容,少数古汉字尽管现今少用,也可包容在同一编码表中。
当今世界,只存在东方的汉字和西方的拼音文字两大体系。现在,汉字与拼音文字兼容了,世界文字进入了并轨期,互联网将不需要因文字的复杂性而产生层层编码,互联网将变得简单易行。
二、汉字的适应性是汉语国际传播的锐利武器
秦始皇统一全国后,“书同文”,秦小篆为通行的规范字体;到了汉代,隶书成了正宗;魏晋以后正楷风行;解放后,汉语拼音。汉字的发展与时俱进。当纸成为我国的“四大发明”之一时,文字从刻在竹简上变为写在纸上。汉字要写在纸上,就必须适应“写”的要求,汉字由篆体字变成隶字,横平竖直,书写方便,汉字体型发生了剧烈变化,顺理成章。同一个道理,信息社会,汉字要“写”进计算机,计算机代替了纸,计算机读写汉字要用拼音字,汉字现在也实现了拼音字的目标,就好像篆字转换成隶字一样,现在要将汉字转换成拼音字,以适应信息社会的需要。这本来是顺乎天理,合乎人情的事。但是,有的人总担心“失掉”汉字,不同意推行拼音字,这与一些错误的舆论有关。例如:拼音会使汉字“沙漠化”、拼音字要“取代”汉字等等。其实这种错误的舆论是由于不理解汉字的生命力所造成的。仔细想一想:实现拼音字时,是靠汉字的规律去实现的,汉字原封未动。在历史的长河中,如果因发展需要汉字转换成其他的什么文字时,汉字这种规律性文字,还可转换成另一种文字。我们为什么要丢掉汉字呢?更何况拼音字与汉字一一对应,拼音字本身就是汉字的一个类别,犹如篆字、隶字一样,多一种文体多一条路,这有什么不好呢?篆字、隶字不是照样存在吗?汉字的任何改革,都应遵循汉字的“音、形、义”三维结构规律。遵循了汉字的“音、形、义”三维结构规律,汉字的形态可能会变,但实质不会改变。例如“谁”的拼音字“yshuizr”由三部分组成:部首“y”代表“言”,读音“shui”,后缀“zr”。而后缀“zr”恰恰是“隹”的部首。所以,表意字是表音字的后盾,表意字为什么要丢掉呢?
三、汉字文字要素的完整性,使表音汉字具有确立的文字地位
由于表音字与表意字是无缝对接,是落实“汉语拼音”。解放后,党和政府大批语言文字专家一起,花了那么大的人力、物力、财力,不就是要实现拼音汉字吗?但是,当时未找到汉字的“音、形、义”三维结构规律,只实现了“汉语拼音”。即便这样,也为汉字的发展做出了不可磨灭的贡献。现在,实现了拼音汉字,只是当时工作的继承,不是什么另类之举,不值得大惊小怪。表音字既与表意字不矛盾,又与“汉语拼音”不冲突,表音字去做表意字做不到的事情,有何不可呢?
(一)区分同音字,成为汉字发展道路上的一个纠结
汉字的词由字组成,丰富的词语极大地提高了汉语的表达力。但是,在1999年2月出版的《语言文字词典》的“一语两文”条目的第八段的末尾却说:“人们担心拼音文字不能区分同音词。其实同音词属于语言的词汇问题,通过对词汇的整理,完全能够加以区分。”[2]这里所说的拼音文字是指416个注音字,注音字无法区分同音字。这个问题在中国语文现代化学会2002年第5次学术年会发表的《汉语现代化——中国语文现代化学会第5次学术会议综述》中已经明确指出:“用拼音给汉字注音,用拼音汉语用于汉字不方便使用的领域,已经在逐渐走拼音化道路。”[4]实际上否定了“词汇整理”论。 大家都知道:汉字的同音词取决于同音字。不能区分同音字,也就不能区分同音词。正因为同音字问题才使汉字不能支撑计算机语言,才使得我国不得不“借用”英文的计算机语言。表音汉字则实现了区分同音字问题。因为它具备文字的三要素,用数学的语言说,是“音、形、义”三变量俱全。而注音字只有一个“音”变量。“词汇”再怎么“整理”,也“整”不成文字。所以,非要将注音字说成是我国的拼音文字,是无知的、愚蠢的霸道形为。
例如:“意义”用注音字表示为:(yi yi),“一心一意”表示为:(yi xin yi yi)。显然,它不能“通过对词汇的整理”而加以区分;其次,是想通过标声调来区分同音字。小学的拼音教学实践早已证明:此路也不通。因某些基本字的同音字太多。如读音“yi”的字竟达30个之多,加声调也不能解决区分问题;且因加声调后,每一个字有4个声调,在计算机使用时,一个声调是一个字符,实际上是增加了字符数而又不能解决根本问题;更因声调在不同地区的人群中差异太大,不易掌握。然而,表音字就不是这样。上述例子“意义”表示为:(yib yim);“一心一意”表示为:(yir xin yir yib),显然可以区分同音词;其次,表音字的后缀有词性,词的结构受到语法制约;第三,表音字的一维书写方式,使字和字之间可以连写,其结果将弥补歧义和语法的不足。例如:“意义”表示为:(yib yim),可写成“yibyim”。
(二)表音汉字具有完整的文字要素系统
“音、义、形”集成的表音汉字,是由表意汉字复制而成,是有规律的文字,“它把汉字所能表达的一切予以保留”。所以,表音汉字的文字地位是确立的,是勿庸置疑的。它具备文字的易学性、全面性、系统性、可使用性、通用性等。其全面性、系统性、通用性都概括在“音、形、义”三维结构的规律中。
文字与语言不同,汉语是依靠语境来区分同音字的。因此,单音节的拼音文字与多音节的拼音文字同样具有使用价值。只是单音节的拼音文字由于理论性较强,其“三维结构”规律难以发现,但不等于说单音节的拼音文字不可能“后来居上”。显然,表音汉字是规律化文字,在实用性上,它已占有先机。更能吸引人的是:汉字的多样性(象形字、表意字、表音字)使其各具特色,丰富多彩。大家知道,多彩的文化生活是灿烂的:象形字的印章;表意字的诗配画;单音节字的易读性。不难预料:单音节的拼音文字在世界文字史上,必将谱写辉煌的篇章。
1.表音汉字适应ASCII的要求
汉字在没有拼音化时,汉字编码在计算机的ASII码中使用的是阿拉伯数字编码。当有了拼音汉字后,就可利用26个拉丁字母进行编码,实现我国计算机的内存转轨,抛弃两个字节表示一个汉字的编码方案。
当汉字拼音化之后,由于汉字与拼音文字兼容,以汉字为载体的东方文字就可以用一个编码表出现在互联网上,由于拼音汉字与简体、繁体汉字兼容,所以,中国大陆和台湾的汉字编码是同一的、一致的。日文和韩文中的许多汉字也与繁体汉字兼容,少数古汉字也可包容在同一编码表中。这样做,有很多好处:
首先:简体字“衅”与繁体字“釁”的拼音汉字都是“xinp”,在编码表中是相同的。这样,当我们要使用简体字时,就选择简体字;要使用繁体字时,就选择繁体字。又如简体字“样”与繁体字“樣”的拼音汉字都是“myangh”,使用时很方便。
其次,内存编码表可以随时扩充。因为拼音汉字在ASCII编码表中用26个拉丁字母的编码,不需“借用”阿拉伯数字。“借用”阿拉伯数字使汉字内码扩展很困难。低字节与高字节由16个二进制位组成。26个拉丁字母的每一个字符,只需一个字节表示。国标GB2312只有6763个汉字,扩展到GBK时为20902个汉字,再扩展怎么办?GBK是没有包括繁体汉字的。然而,用拼音汉字就没有这个问题,汉字库可随时扩展,用户个人可以扩展,国家也可定期扩展,不受限制,适应汉字“量大字杂”的特点。
第三,表音汉字用于内存编码安全,不同于用阿拉伯数字编码。此外,听说俄罗斯军队用俄文编程,不用英文编程,目的在于信息安全。
第四,在互联网上,便于与东方文化的国家交流。汉字是东方文字的源头,汉字拼音化了,对东方文字就有影响,也有利于其他东方国家文字的发展。在互联网上,文件中将是拼音汉字在世界各地传播,不再是“借用”的阿拉伯数字。
第五,在软件编程、汉字输入、文字处理等方面,都用拼音汉字。通过表音汉字,与汉字点阵字型库挂接,即可实现汉字输入。汉字输入不再有“瓶颈”问题。更重要的是:表音字与表意字的复制关系,可实现汉字的机器输入,这有利于大信息量输入。
2.拼音汉字适应编程要求
在软件领域,我国使用英文计算机语言,“借用”英文编程。有了拼音汉字,可用拼音字设计计算机语言,例如,BASIC语言常用的语句可用拼音字代替:
汉字 英文 表音汉字
读 INPUT YDUV
写 PRINT XIEV
完 END WANV
则 THEN ZE
到 TO DAOV
令 LET LINGV
如果设计中文编译器,就可以实现中文的计算机语言。这样,我们就不受英文的制约。在欧美国家,高中生都会编程,计算机成为普及工具,这就有利于发挥国民的创造力。试想,在信息社会,一个国家如果只能依靠少数精英掌握英文,使用计算机编程,这个国家能有多大的创新能力?能有多少惊人成果出现?计算机是信息社会的生产工具,没有编程能力哪来的创新能力?这是我国进入信息社会的根本大事。这个问题不解决,怎能实现信息社会?如果有人认为中国不通过计算机语言的实践就可跨入信息社会,就类似于清朝的“洋务运动”,认为可以通过“买机器”实现工业化。事实证明:工业社会“买”不来,信息社会同样也“买”不来。 所以,表音汉字的“缀”,不是为加缀而加缀;表音汉字的“拼音”,不是为拼音而拼音。它们是一个系统工程。大家分析一下:从发现汉字的“音、形、义”三维结构规律,到实现表音汉字;利用表音汉字做计算机的内存;利用表音汉字输入/输出;利用表音汉字设计中文的计算机语言;利用中文的计算机语言编写软件/库文件。以上这些工作,仅属于计算机识别汉字范畴的工作,它显然已经是一个巨大的系统工程。千万不要认为表音汉字是可以这样,也可以那样随意而做的一件事。没有“音、形、义”三维结构规律,是不可能实现表音汉字的。
每当谈到中文编程问题时,就有人怀着“谁动了我的奶酪”的感情说:“没有必要!”当提出要分析汉字的词性时又有人说:“谷歌早晚会懂得分析词性的。”这种观点当然不能让人同意。因为“谷歌”是一家外企公司,把中国人应做的事,寄托在外国人“早晚会懂”上,那我国还有什么希望发展自主的信息产业?想当初,汉字没有拼音化时,中国人用英文的计算机语言编程,那是情有可原;现在汉字也拼音化了,中国人还要用英文的计算机语言编程,这不就让人不可思议了吗?!
四、从两大语系的特点对比,明确表音汉字标明词性的必要性
在汉字拼音化的进程中,汉字一直存在两个纠结,一个是如何区分同音字问题;另一个是彰显汉字的语法问题。
(一)汉字的第二个纠结是汉语语法问题
人工智能时代对语言文字将提出更严格的要求,中国人与机器人的交流一定是汉语,不可能通过翻译与机器人交谈。外文翻译成中文有直译和意译两种,无论哪种翻译,由于语言风俗习惯不同,对中国人来说都将造成很大的麻烦。当汉语用于“人工智能”分析时,人们再想“借用”英文这个桥梁,那就“此路不通”了!加工对象在哪里呢?再反对汉字拼音化时,恐怕是追悔莫及,悔之晚矣!
例如:汉语中,大量的虚词运用,是一种重要的语法手段,汉语的虚词比英语丰富得多,有相当数量的助词。如:“的”“得”“地”“着”“了”“过”“们”等。因此,语法结构有较大的区别,这是众所周知的。因此,今日之选择,要为将来之应用负责。汉语必须有适合人工智能的文字。
《人工智能原理》指出:“朱德熙先生在《语法答问》一书中曾精辟地指出,和印欧语相比,汉语的主要特点”[5]有以下三点:
第一,汉语的词类缺乏形式标记;
第二,汉语词类跟句法成分之间不存在简单的一一对应关系。试看在英语中:
主宾语 谓语 定语 状语
| | | |
名词 动词 形容词 副词
而在汉语中,这种关系变成了多对多关系,如下图所示:
第三,汉语句子的构造原则跟短语(即词组)的构造原则基本一致。例如拿动词来说,在英语短语中,不允许有限定动词出现,如果要出现动词的话,只能是动词的不定式或分词形式;只有句子及其包含的子句才能有一个限定动词充当主要动词。可是汉语的情形完全不同,动词和动词结构不论在句子的哪个位置上出现,形式完全一样。
《人工智能原理》还指出:“汉语的这些特点对于用计算机来进行句法分析是极其不利的。”基于这些理由,并且考虑到汉字在产生之初,一般只有一个意义,称为本义;随着使用范围的扩大,往往会在本义的基础上产生若干个新的意义,称为引申义。基于汉字为单音节字的特点,在实现基本字表音化时,必须利用前、后缀来标明表音汉字的词性。这既利于根据本义追索其字源,又利于分析句法成分。
正如吕叔湘先生在《现代汉语规范词典》的“序一”中所言:“词义的发展脉络,词性的标注等问题,却不简单。他们也自知当前不能全部做好,我认为他们还有自知之明,但做总比不做好。万事开头难,只要开了头,随着科学的发展和研究的深入,总有一天会完备起来。”尽管这段话是在2010年8月买到该词典后才看到的,但由于该词典对词性的标注是目前所见到的最全面、内容最丰富的词典。所以,我们又将此前的词性标注,依该词典进行了新的审查修订。我们深深地感到:词性的标注是一个需要不断进行研究的学术问题。吕叔湘先生及《现代汉语规范词典》的编著者为什么如此重视词性的标注?因为它是汉语研究必须要做的基础工作,也是人工智能的重大前提条件之一。正因如此,我们做了下面几项工作:
1.基本字大都为前三文,表音化时,没有前缀,只有后缀,后缀标明本义词性。
2.常用基本字是名词,不加后缀。因为在表音汉字中常用名词是使用最多的。为了使用简便,所以是隐含的名词词性。
3.形声字的前缀为部首,是表示形声字的含义的,当然与词性有关。表音汉字的前缀是具备词性功能的,再加上基本字的后缀带来的词性,所以形声字的词性要具体问题具体分析。例如,部首“扌”的形声字,几乎都是动词,部首“邑”的形声字,几乎都是名词。
例如:“(jianz)戋(小,少)、(shjianz)浅、(zhjianz)笺、(bkjianz)賎、(dqjianz)残、(jjianz)銭”。其中,基本字“(jianz)戋”,后缀为“z”说明为形容词。其形声字(shjianz)浅、(bkjianz)賎、(dqjianz)残是形容词;(zhjianz)笺、(jjianz)銭则是名词,与竹器、金属有关。因此,表音汉字能承担词性的任务。将汉字的隐含词性变成显性词性,这将是汉字的重大变化。在GB18030汉字库中,基本字有1641个;另外,还有502个独体字,其实也是基本字,故总计为2143个字。因此,将基本字标注词性,是一件非常艰巨而又十分有意义的工作,它是汉字实现表音化而追求的目标之一。注音字是没有词性功能的,不能把注音字当成拼音文字。正如前文所说:计算机“识别”汉字问题并没有真正解决,是因为汉字的拼音化没有真正解决。现在我国计算机使用的输入法,如五笔字型是拆字法,“kl”能代表“中国”吗?就连微软公司的输入法,也是显示一排同音字,最后靠人的智力来分辨后选取所需的汉字。只有表音汉字输入法,才能实现表音汉字与表意汉字一对一的关系。输入表音汉字“yib”,只显示一个表意汉字“意”,不可能显示另外的任何汉字,这才称得上是计算机“识别”了汉字。至此,也就可利用表音汉字编译中文的计算机语言,实现中文的编程。 (二)表音汉字使汉字字形的变化成为可能
朱德熙先生在《语法问答》中指出:“传统语法受印欧语影响,所以一般把汉语与印欧语比较,其中最最显著的特点是汉语字形没有变化,即汉语缺乏形态变化。”在汉字表音化之后,汉字的形态变化将成为可能。因为基本字具有词性,且由于汉字的一字多词性的特点,以及汉字没有形态变化的传统。要使汉字既具备词性变化,又保持汉字形态不变的传统,在基本字标注本义词性的基础上,再标注引申义的词性。计算机使用时,文章中只须本义词性时基本字的原形不变;当需要用引申义的词性时,再加注引申义的词性。此时,以引申义的词性为该字的词性。对此,用符号加注词性成为一种较好的解决办法:
名词用符号“?”表示,动词用符号“~”表示,形容词用符号“?”表示,副词用符号“`”表示。可以将这些符号加在字的后面。
此外,在加后缀时,对23个声母字没有全部用完,保留有“n”,以便在语法分析需要时,作为改变字形时使用。例如,在分析句子时,由于句子中会出现数个动词,标明主要动词是很必要的,在动词后再加“n”,表示主动词,有利于语法分析。
例如:“我们的共产党和共产党所领导的八路军、新四军,是革命的队伍。”这句话用表音汉字表示时为:
“Wo rmenp de gong chanv dang he gong chanv dang suom ywlingv cwdaop de bar lup jun、xinh sir jun,shid get mingb de dui rwur.”在这句话中,动词有三处: chanv(产)、ywlingv(领)、shid(是)。显然,shid(是)为主要动词,标明shid(是)为“shidn”,对计算机识别是有利的。语法是智能运用的依托,不解决汉语语法的显性表示问题,就不利于汉语的人工智能运用。
五、展望
人类又一次迎来了新一轮的技术革命。这次由大规模数据、智能化生产以及无线网络所引领的技术革命,将推动经济增长,带来社会巨变。
信息技术已经进入一个大规模数据时代。处理能力和数据存储实际上是免费的。掌上数码设备如iPhone手机的运算能力能让上世纪70年代的IBM主机自愧不如。互联网正演变为“云”网络——所谓“云”是指一个由数以千计的数据中心都可以让1990年的任何一台超级计算机看上去像是洪荒年代的产物。惊人的数据处理能力使以往无法想象的服务和业务成为可能。这其中就包括文字的处理能力,由此可见,表音汉字有利于大规模信息处理。
基于计算机设计的,自然界不可能有的物质特性的新材料,如隐形材料被设计出来,这些新材料与三维打印相结合,会对经济发展产生爆炸性影响。所谓三维打印实际上是利用计算机、激光、新材料,“打印”飞机等精密零部件。这种近乎完美的计算化设计和直接制造的时代,令人们制造产品的方式产生巨大的改变。所以,支撑计算机软件的计算机语言,并不是一个转瞬即逝的社会现象,而是一个长期支撑社会实践过程的客观事物,千万不要轻视计算机语言的社会价值,我国应该有中文的计算机语言。
对自然语言的理解,一直是语言信息处理技术的一个高层次的重要研究方向,一直是人工智能所关注的核心课题之一。显然,如果计算机能够理解自然语言,人-机间的信息交流能够以人们所熟悉的本族语言来进行,那将是计算机技术的一项重大突破。另一方面,由于创造和使用自然语言是人类高度智能的表现,因此对自然语言理解的研究也有助于揭开人类智能的奥秘,深化我们对语言能力和思维本质的认识。所以说,这个研究方向在语言应用方面和语言理论方面都有重大意义。
参考文献:
[1]赵毅衡.符号学文学论文集[C].天津:百花文艺出版社,2004.
[2]何立.语言文字词典[M].北京:学苑出版社,1999.
[3]石纯一等.人工智能原理[M].北京:清华大学出版社,1993.
[4]李行健.现代汉语规范词典[Z].北京:外语教学与研究出版社,
2010.
[5]陈耀西,陈红根.《走自主信息化之路》,IEEE文库,2011.
(陈耀西 河南郑州 解放军信息工程大学测绘学院 450052;陈红根 河南郑州 河南职业技术学院 450046)
关键词:表音汉字 三维结构 计算机语言 信息产业 人工智能 传播战略
《走自主信息化之路》一文,已经收进IEEE文库。该文章的发表,使表音汉字走向世界迈开了第一步。当今信息社会,语言竞争非常激烈,在谈论汉语国际传播时,首先就有一个汉语国际传播战略问题。
一、展现表音汉字,事关汉语国际传播战略
什么是汉语国际传播战略?大家知道,优胜劣汰是一切事物发展、变化的总趋势,也是汉语国际传播战略必然遵循的基本规律。汉字拼音化,就是展现汉字的优势。以汉字的优势与其它文字比拼,才能取得国际传播的优势地位。
当今世界,文字大致可分为印欧系语言的拼音文字系统和汉字系统。拼音文字系统是多音节文字系统,汉字是单音节文字系统。汉字由象形、表意到拼音,可以说:汉字是唯一代表世界文字发展史全过程的文字,这是一件很了不起的大事。西方的拼音文字已经将象形、表意抛弃了,只剩下一个拼音阶段。
(一)西方拼音文字几乎是“纯习俗”符号,而汉字是有理据的
《符号学》指出:“语言,是最庞大的几乎‘纯习俗’符号”[1]。这是西方人对自己拼音文字作的结论。所谓“纯习俗”符号,即全靠约定俗成,无理可讲,相沿成习。说明西方拼音文字是无理据的。与汉字相比,简直是天渊之别。
围绕汉字拼音,中华民族艰苦奋斗了几个世纪,盖因没有找到汉字的编码规则。但是,要说汉字有编码规则,那将是有违文字发展规律的事,既没有人相信,也没有人去做。可是,汉字在形成形声字时,已经是在以字造字,是有意识的,与当时的社会哲学思想密切相关。汉字沿着形声字的道路发展,必然形成“音、形、义”三维结构,这是我国历代学者不断研究与总结的结果。因此,汉字发展成为有规律的文字是必然的。
首先,汉语已经实现了拉丁字母拼音,总计416个单音节。因此,汉字必然是单音节字,它与西方拼音文字的多音节字相区分,这是汉字的第一个特点。“汉语拼音”只能给“汉字注音”,形成很多同音字。因此,它还不是文字,不能用来支撑计算机语言。
其次,汉字以形声字为主。形声字已经占汉字总数的90%。由于形声字的构字已经模式化,即:形声字=部首+基本字。形声字的部首不发音,是符号,所以部首是字“缀”。可惜,这一特征长期被国人所忽视。文字是庞大的体系,汉字416个单音节字,不通过加“缀”,是不可能形成庞大的文字体系的。语言学家索绪尔说:“语言是一连串的区分行为,在模糊不确定的概念层与同样模糊不确定的语言层上区分出相应的单位。”[1]语言,正如任何符号系统,其特征是区分一物与组成一物两者没有什么不同。通过加“缀”来区分同音字,这是汉字的第二个特点。
第三,汉字的同音基本字发展经历了两千多年,趋于稳定。在字和字之间,已经形成“音、形、义”的“三维结构”体系(参阅陈耀西,陈红根《走自主信息化之路》一文)。这个体系是规律化的。如果这个体系不是规律化的,即使加“缀”,也不可能实现拼音化。这是汉字的第三个特点。
到2004年,因为找到了实现汉字拼音的方法,即找到了汉字的“音、形、义”三维结构规律,故可在国家推行的《汉语拼音》的基础上,用加缀法,以一个汉字复制一个拼音字。它不是生拼硬凑,之所以能顺利地实现汉字拼音化,是由于有“音、形、义”三维结构理论的支撑。不然,庞大的汉字体系,是无法着手进行拼音化工作的。所以,表音汉字不是无源之水、无本之木,而是在汉民族的语言文字风俗习惯下成长的拼音文字。形声字就是加缀字,这是汉民族的文字特色。所以汉字拼音化是水到渠成、顺理成章之事。
当西方人对西方拼音文字作的结论是‘纯习俗’的符号时,而东方文化的代表——汉字,却被发现是有规律的“音、形、义”三维结构。按照汉字的这个编码规则,用西方任何一个国家的拼音字母表,都可以拼出汉字的拼音文字。无论是法国、英国、德国、还是俄国的拼音字母表,除个别发音与汉语发音习惯不同外(例如:俄语的卷舌音,汉语就没有。我国采用的是拉丁文字母表。)。如果将此问题引申一下,这个问题将说明:汉字在世界文字中是唯一具有普遍意义的文字。只有寻找到汉字的编码规则后,人们才知道汉字的可贵。
(二)正视英语热
2011年5月18日,《教育部、国家语委发布2010年中国语言生活状况报告》指出:“青少年汉语能力和汉字书写能力正在下降和退化。在一个文化高速传播的时代,我们的母语却正在被淡忘,这是一个悲哀。”这个报告说明教育部、国家语委敢于正视问题。
在信息社会,计算机无孔不入。计算机硬件的核心是芯片,计算机软件的核心是计算机语言。现今我国没有中文的计算机语言,全都是英文的计算机语言,例如:BASIC语言、FORTRAN语言、C语言等,中文进入不了中央处理器。特别是数量巨大的库文件,英语在编程领域的广泛应用,使得英文垄断了软件领域。在这个范畴里,汉字事实上已经被边缘化。信息社会,我们的母语不能支撑计算机语言,不能编软件,已经被边缘化,青少年当然淡忘母语,转向英语。现在,哪一个行业不用计算机?哪一所学校不学英语?甚至连中国幼儿园的小朋友也在学英语。对于这种现象必须引起我们的高度重视。
(三)正确认识汉字的作用
《符号学》认为:“人类文化是一种语言文明,大部分规模较大的符号体系,是建筑在语言这初始体系之上的二度体系。”[1]语言是“初始体系”,是“基准模型”,是区别计算机语言等人工语言的自然语言。“语言不但是人类社会最大的符号体系,而且大得不成比例,其他符号体系与之相比实在太小,而且全都可以被语言混杂、解释、置换。”[1]只有自然语言是最完善、最科学的符号体系。社会发展到今天被称为信息社会,人们一下子将注意力集中在语言学上,因为计算机语言就是自然语言的二度体系,它们的关系如下: 自然语言——→计算机语言——→机器语言(ASCII码)
语言和信息的关系成为当今社会最基本的、最核心的关系,这个关系处理得好与不好,不但涉及到社会发展的快慢、国家的强弱;而且关系到民族的生死存亡。因为只有自然语言才是计算机语言的支撑、解释体系。如果一个国家的计算机语言不是由本国的自然语言支撑,那么它必定要靠编译成计算机语言的那种自然语言支撑。社会由工业社会向信息社会转型,要求汉字适应信息社会的需要,现在汉字实现了拼音化,就应该急起直追,用表音汉字编译中文的计算机语言。使计算机语言适应汉民族的语言风俗习惯,发展中文的计算机软件,推进中国的信息产业,提升中国工业的自动化水平。
但是,我国目前使用计算机却是“借用”英语为桥梁,汉字内码用的是阿拉伯数字编码。我国目前还没有一台真正意义上的国产计算机。计算机“识别”汉字问题并没有真正解决,当然更谈不上计算机“理解”汉字问题。这就是不解决汉字拼音化的严重问题。
大家知道,在利用ASCII码时,西方的拼音文字都用一个字节来保存,一个字节由8个二进制的位组成(注:二进制是我国发明的),用来表示无符号的整数的话,范围正好是=0~255。而严重的问题出现在东方文字,中国、朝鲜和日本的文字包含大量的汉字符号。例如,中国的文字不是拼音文字,汉字作为符号有数万之多,远远超过256个字符,因此,ISO的8859标准实际上不能处理中文的字符。中国的专家通过借鉴ISO8859的编码思想,认为:既然一个字节的256种字符不能表示中文,就使用两个字节来表示一个汉字。汉字的编码问题好像是解决了,其实不然。台湾也使用中文,由于历史的原因,那里没有使用大陆的简体字,还在使用繁体字,而且台湾也制定了一套表示繁体中文的字符编码,称为BIG5。不幸的是,虽然台湾也使用两个字节来表示一个汉字,但没有像我们兼容ASCII一样兼容简体字,他们使用了大致相同的编码范围来表示繁体的汉字。所以ISO8859的悲剧又出现在同样使用汉字的中国人身上了。同样的编码在大陆和台湾的编码中实际上表示不同的字符,大陆的玩家在玩台湾的游戏软件时,经常会遇到乱码的问题,根源就在于:大陆的计算机默认字符的编码就是GB2312,当碰到台湾使用BIG5编码的文字时,就会做出错误的转换。由于历史和文化的原因,日文和韩文中也包含许多的汉字,像汉字一样拥有大量的字符,可是,日韩语言的字符编码同样与中文编码有冲突,日文电脑游戏在大陆上一样也会出现无法理解的乱码。在20世纪80年代后期,互联网出现了,一夜之间,地球村上的人们可以直接访问远在天边的服务器,电子文件在全世界传播,在一切都在数字化的今天,计算机内存中用阿拉伯数字编码的汉字到底代表什么字?这就成为一个真正的大问题。
当汉字表音化之后,由于汉字可用拉丁字母表示,汉字即可利用二进制编码,以一个字节来表示一个表音字字母。于是,以汉字为载体的东方文字就可以以一个编码表出现在互联网上。表音汉字与简体、繁体汉字兼容,中国大陆和台湾的汉字编码是同一的、一致的。日文和韩文中的许多汉字也与繁体汉字兼容,少数古汉字尽管现今少用,也可包容在同一编码表中。
当今世界,只存在东方的汉字和西方的拼音文字两大体系。现在,汉字与拼音文字兼容了,世界文字进入了并轨期,互联网将不需要因文字的复杂性而产生层层编码,互联网将变得简单易行。
二、汉字的适应性是汉语国际传播的锐利武器
秦始皇统一全国后,“书同文”,秦小篆为通行的规范字体;到了汉代,隶书成了正宗;魏晋以后正楷风行;解放后,汉语拼音。汉字的发展与时俱进。当纸成为我国的“四大发明”之一时,文字从刻在竹简上变为写在纸上。汉字要写在纸上,就必须适应“写”的要求,汉字由篆体字变成隶字,横平竖直,书写方便,汉字体型发生了剧烈变化,顺理成章。同一个道理,信息社会,汉字要“写”进计算机,计算机代替了纸,计算机读写汉字要用拼音字,汉字现在也实现了拼音字的目标,就好像篆字转换成隶字一样,现在要将汉字转换成拼音字,以适应信息社会的需要。这本来是顺乎天理,合乎人情的事。但是,有的人总担心“失掉”汉字,不同意推行拼音字,这与一些错误的舆论有关。例如:拼音会使汉字“沙漠化”、拼音字要“取代”汉字等等。其实这种错误的舆论是由于不理解汉字的生命力所造成的。仔细想一想:实现拼音字时,是靠汉字的规律去实现的,汉字原封未动。在历史的长河中,如果因发展需要汉字转换成其他的什么文字时,汉字这种规律性文字,还可转换成另一种文字。我们为什么要丢掉汉字呢?更何况拼音字与汉字一一对应,拼音字本身就是汉字的一个类别,犹如篆字、隶字一样,多一种文体多一条路,这有什么不好呢?篆字、隶字不是照样存在吗?汉字的任何改革,都应遵循汉字的“音、形、义”三维结构规律。遵循了汉字的“音、形、义”三维结构规律,汉字的形态可能会变,但实质不会改变。例如“谁”的拼音字“yshuizr”由三部分组成:部首“y”代表“言”,读音“shui”,后缀“zr”。而后缀“zr”恰恰是“隹”的部首。所以,表意字是表音字的后盾,表意字为什么要丢掉呢?
三、汉字文字要素的完整性,使表音汉字具有确立的文字地位
由于表音字与表意字是无缝对接,是落实“汉语拼音”。解放后,党和政府大批语言文字专家一起,花了那么大的人力、物力、财力,不就是要实现拼音汉字吗?但是,当时未找到汉字的“音、形、义”三维结构规律,只实现了“汉语拼音”。即便这样,也为汉字的发展做出了不可磨灭的贡献。现在,实现了拼音汉字,只是当时工作的继承,不是什么另类之举,不值得大惊小怪。表音字既与表意字不矛盾,又与“汉语拼音”不冲突,表音字去做表意字做不到的事情,有何不可呢?
(一)区分同音字,成为汉字发展道路上的一个纠结
汉字的词由字组成,丰富的词语极大地提高了汉语的表达力。但是,在1999年2月出版的《语言文字词典》的“一语两文”条目的第八段的末尾却说:“人们担心拼音文字不能区分同音词。其实同音词属于语言的词汇问题,通过对词汇的整理,完全能够加以区分。”[2]这里所说的拼音文字是指416个注音字,注音字无法区分同音字。这个问题在中国语文现代化学会2002年第5次学术年会发表的《汉语现代化——中国语文现代化学会第5次学术会议综述》中已经明确指出:“用拼音给汉字注音,用拼音汉语用于汉字不方便使用的领域,已经在逐渐走拼音化道路。”[4]实际上否定了“词汇整理”论。 大家都知道:汉字的同音词取决于同音字。不能区分同音字,也就不能区分同音词。正因为同音字问题才使汉字不能支撑计算机语言,才使得我国不得不“借用”英文的计算机语言。表音汉字则实现了区分同音字问题。因为它具备文字的三要素,用数学的语言说,是“音、形、义”三变量俱全。而注音字只有一个“音”变量。“词汇”再怎么“整理”,也“整”不成文字。所以,非要将注音字说成是我国的拼音文字,是无知的、愚蠢的霸道形为。
例如:“意义”用注音字表示为:(yi yi),“一心一意”表示为:(yi xin yi yi)。显然,它不能“通过对词汇的整理”而加以区分;其次,是想通过标声调来区分同音字。小学的拼音教学实践早已证明:此路也不通。因某些基本字的同音字太多。如读音“yi”的字竟达30个之多,加声调也不能解决区分问题;且因加声调后,每一个字有4个声调,在计算机使用时,一个声调是一个字符,实际上是增加了字符数而又不能解决根本问题;更因声调在不同地区的人群中差异太大,不易掌握。然而,表音字就不是这样。上述例子“意义”表示为:(yib yim);“一心一意”表示为:(yir xin yir yib),显然可以区分同音词;其次,表音字的后缀有词性,词的结构受到语法制约;第三,表音字的一维书写方式,使字和字之间可以连写,其结果将弥补歧义和语法的不足。例如:“意义”表示为:(yib yim),可写成“yibyim”。
(二)表音汉字具有完整的文字要素系统
“音、义、形”集成的表音汉字,是由表意汉字复制而成,是有规律的文字,“它把汉字所能表达的一切予以保留”。所以,表音汉字的文字地位是确立的,是勿庸置疑的。它具备文字的易学性、全面性、系统性、可使用性、通用性等。其全面性、系统性、通用性都概括在“音、形、义”三维结构的规律中。
文字与语言不同,汉语是依靠语境来区分同音字的。因此,单音节的拼音文字与多音节的拼音文字同样具有使用价值。只是单音节的拼音文字由于理论性较强,其“三维结构”规律难以发现,但不等于说单音节的拼音文字不可能“后来居上”。显然,表音汉字是规律化文字,在实用性上,它已占有先机。更能吸引人的是:汉字的多样性(象形字、表意字、表音字)使其各具特色,丰富多彩。大家知道,多彩的文化生活是灿烂的:象形字的印章;表意字的诗配画;单音节字的易读性。不难预料:单音节的拼音文字在世界文字史上,必将谱写辉煌的篇章。
1.表音汉字适应ASCII的要求
汉字在没有拼音化时,汉字编码在计算机的ASII码中使用的是阿拉伯数字编码。当有了拼音汉字后,就可利用26个拉丁字母进行编码,实现我国计算机的内存转轨,抛弃两个字节表示一个汉字的编码方案。
当汉字拼音化之后,由于汉字与拼音文字兼容,以汉字为载体的东方文字就可以用一个编码表出现在互联网上,由于拼音汉字与简体、繁体汉字兼容,所以,中国大陆和台湾的汉字编码是同一的、一致的。日文和韩文中的许多汉字也与繁体汉字兼容,少数古汉字也可包容在同一编码表中。这样做,有很多好处:
首先:简体字“衅”与繁体字“釁”的拼音汉字都是“xinp”,在编码表中是相同的。这样,当我们要使用简体字时,就选择简体字;要使用繁体字时,就选择繁体字。又如简体字“样”与繁体字“樣”的拼音汉字都是“myangh”,使用时很方便。
其次,内存编码表可以随时扩充。因为拼音汉字在ASCII编码表中用26个拉丁字母的编码,不需“借用”阿拉伯数字。“借用”阿拉伯数字使汉字内码扩展很困难。低字节与高字节由16个二进制位组成。26个拉丁字母的每一个字符,只需一个字节表示。国标GB2312只有6763个汉字,扩展到GBK时为20902个汉字,再扩展怎么办?GBK是没有包括繁体汉字的。然而,用拼音汉字就没有这个问题,汉字库可随时扩展,用户个人可以扩展,国家也可定期扩展,不受限制,适应汉字“量大字杂”的特点。
第三,表音汉字用于内存编码安全,不同于用阿拉伯数字编码。此外,听说俄罗斯军队用俄文编程,不用英文编程,目的在于信息安全。
第四,在互联网上,便于与东方文化的国家交流。汉字是东方文字的源头,汉字拼音化了,对东方文字就有影响,也有利于其他东方国家文字的发展。在互联网上,文件中将是拼音汉字在世界各地传播,不再是“借用”的阿拉伯数字。
第五,在软件编程、汉字输入、文字处理等方面,都用拼音汉字。通过表音汉字,与汉字点阵字型库挂接,即可实现汉字输入。汉字输入不再有“瓶颈”问题。更重要的是:表音字与表意字的复制关系,可实现汉字的机器输入,这有利于大信息量输入。
2.拼音汉字适应编程要求
在软件领域,我国使用英文计算机语言,“借用”英文编程。有了拼音汉字,可用拼音字设计计算机语言,例如,BASIC语言常用的语句可用拼音字代替:
汉字 英文 表音汉字
读 INPUT YDUV
写 PRINT XIEV
完 END WANV
则 THEN ZE
到 TO DAOV
令 LET LINGV
如果设计中文编译器,就可以实现中文的计算机语言。这样,我们就不受英文的制约。在欧美国家,高中生都会编程,计算机成为普及工具,这就有利于发挥国民的创造力。试想,在信息社会,一个国家如果只能依靠少数精英掌握英文,使用计算机编程,这个国家能有多大的创新能力?能有多少惊人成果出现?计算机是信息社会的生产工具,没有编程能力哪来的创新能力?这是我国进入信息社会的根本大事。这个问题不解决,怎能实现信息社会?如果有人认为中国不通过计算机语言的实践就可跨入信息社会,就类似于清朝的“洋务运动”,认为可以通过“买机器”实现工业化。事实证明:工业社会“买”不来,信息社会同样也“买”不来。 所以,表音汉字的“缀”,不是为加缀而加缀;表音汉字的“拼音”,不是为拼音而拼音。它们是一个系统工程。大家分析一下:从发现汉字的“音、形、义”三维结构规律,到实现表音汉字;利用表音汉字做计算机的内存;利用表音汉字输入/输出;利用表音汉字设计中文的计算机语言;利用中文的计算机语言编写软件/库文件。以上这些工作,仅属于计算机识别汉字范畴的工作,它显然已经是一个巨大的系统工程。千万不要认为表音汉字是可以这样,也可以那样随意而做的一件事。没有“音、形、义”三维结构规律,是不可能实现表音汉字的。
每当谈到中文编程问题时,就有人怀着“谁动了我的奶酪”的感情说:“没有必要!”当提出要分析汉字的词性时又有人说:“谷歌早晚会懂得分析词性的。”这种观点当然不能让人同意。因为“谷歌”是一家外企公司,把中国人应做的事,寄托在外国人“早晚会懂”上,那我国还有什么希望发展自主的信息产业?想当初,汉字没有拼音化时,中国人用英文的计算机语言编程,那是情有可原;现在汉字也拼音化了,中国人还要用英文的计算机语言编程,这不就让人不可思议了吗?!
四、从两大语系的特点对比,明确表音汉字标明词性的必要性
在汉字拼音化的进程中,汉字一直存在两个纠结,一个是如何区分同音字问题;另一个是彰显汉字的语法问题。
(一)汉字的第二个纠结是汉语语法问题
人工智能时代对语言文字将提出更严格的要求,中国人与机器人的交流一定是汉语,不可能通过翻译与机器人交谈。外文翻译成中文有直译和意译两种,无论哪种翻译,由于语言风俗习惯不同,对中国人来说都将造成很大的麻烦。当汉语用于“人工智能”分析时,人们再想“借用”英文这个桥梁,那就“此路不通”了!加工对象在哪里呢?再反对汉字拼音化时,恐怕是追悔莫及,悔之晚矣!
例如:汉语中,大量的虚词运用,是一种重要的语法手段,汉语的虚词比英语丰富得多,有相当数量的助词。如:“的”“得”“地”“着”“了”“过”“们”等。因此,语法结构有较大的区别,这是众所周知的。因此,今日之选择,要为将来之应用负责。汉语必须有适合人工智能的文字。
《人工智能原理》指出:“朱德熙先生在《语法答问》一书中曾精辟地指出,和印欧语相比,汉语的主要特点”[5]有以下三点:
第一,汉语的词类缺乏形式标记;
第二,汉语词类跟句法成分之间不存在简单的一一对应关系。试看在英语中:
主宾语 谓语 定语 状语
| | | |
名词 动词 形容词 副词
而在汉语中,这种关系变成了多对多关系,如下图所示:
第三,汉语句子的构造原则跟短语(即词组)的构造原则基本一致。例如拿动词来说,在英语短语中,不允许有限定动词出现,如果要出现动词的话,只能是动词的不定式或分词形式;只有句子及其包含的子句才能有一个限定动词充当主要动词。可是汉语的情形完全不同,动词和动词结构不论在句子的哪个位置上出现,形式完全一样。
《人工智能原理》还指出:“汉语的这些特点对于用计算机来进行句法分析是极其不利的。”基于这些理由,并且考虑到汉字在产生之初,一般只有一个意义,称为本义;随着使用范围的扩大,往往会在本义的基础上产生若干个新的意义,称为引申义。基于汉字为单音节字的特点,在实现基本字表音化时,必须利用前、后缀来标明表音汉字的词性。这既利于根据本义追索其字源,又利于分析句法成分。
正如吕叔湘先生在《现代汉语规范词典》的“序一”中所言:“词义的发展脉络,词性的标注等问题,却不简单。他们也自知当前不能全部做好,我认为他们还有自知之明,但做总比不做好。万事开头难,只要开了头,随着科学的发展和研究的深入,总有一天会完备起来。”尽管这段话是在2010年8月买到该词典后才看到的,但由于该词典对词性的标注是目前所见到的最全面、内容最丰富的词典。所以,我们又将此前的词性标注,依该词典进行了新的审查修订。我们深深地感到:词性的标注是一个需要不断进行研究的学术问题。吕叔湘先生及《现代汉语规范词典》的编著者为什么如此重视词性的标注?因为它是汉语研究必须要做的基础工作,也是人工智能的重大前提条件之一。正因如此,我们做了下面几项工作:
1.基本字大都为前三文,表音化时,没有前缀,只有后缀,后缀标明本义词性。
2.常用基本字是名词,不加后缀。因为在表音汉字中常用名词是使用最多的。为了使用简便,所以是隐含的名词词性。
3.形声字的前缀为部首,是表示形声字的含义的,当然与词性有关。表音汉字的前缀是具备词性功能的,再加上基本字的后缀带来的词性,所以形声字的词性要具体问题具体分析。例如,部首“扌”的形声字,几乎都是动词,部首“邑”的形声字,几乎都是名词。
例如:“(jianz)戋(小,少)、(shjianz)浅、(zhjianz)笺、(bkjianz)賎、(dqjianz)残、(jjianz)銭”。其中,基本字“(jianz)戋”,后缀为“z”说明为形容词。其形声字(shjianz)浅、(bkjianz)賎、(dqjianz)残是形容词;(zhjianz)笺、(jjianz)銭则是名词,与竹器、金属有关。因此,表音汉字能承担词性的任务。将汉字的隐含词性变成显性词性,这将是汉字的重大变化。在GB18030汉字库中,基本字有1641个;另外,还有502个独体字,其实也是基本字,故总计为2143个字。因此,将基本字标注词性,是一件非常艰巨而又十分有意义的工作,它是汉字实现表音化而追求的目标之一。注音字是没有词性功能的,不能把注音字当成拼音文字。正如前文所说:计算机“识别”汉字问题并没有真正解决,是因为汉字的拼音化没有真正解决。现在我国计算机使用的输入法,如五笔字型是拆字法,“kl”能代表“中国”吗?就连微软公司的输入法,也是显示一排同音字,最后靠人的智力来分辨后选取所需的汉字。只有表音汉字输入法,才能实现表音汉字与表意汉字一对一的关系。输入表音汉字“yib”,只显示一个表意汉字“意”,不可能显示另外的任何汉字,这才称得上是计算机“识别”了汉字。至此,也就可利用表音汉字编译中文的计算机语言,实现中文的编程。 (二)表音汉字使汉字字形的变化成为可能
朱德熙先生在《语法问答》中指出:“传统语法受印欧语影响,所以一般把汉语与印欧语比较,其中最最显著的特点是汉语字形没有变化,即汉语缺乏形态变化。”在汉字表音化之后,汉字的形态变化将成为可能。因为基本字具有词性,且由于汉字的一字多词性的特点,以及汉字没有形态变化的传统。要使汉字既具备词性变化,又保持汉字形态不变的传统,在基本字标注本义词性的基础上,再标注引申义的词性。计算机使用时,文章中只须本义词性时基本字的原形不变;当需要用引申义的词性时,再加注引申义的词性。此时,以引申义的词性为该字的词性。对此,用符号加注词性成为一种较好的解决办法:
名词用符号“?”表示,动词用符号“~”表示,形容词用符号“?”表示,副词用符号“`”表示。可以将这些符号加在字的后面。
此外,在加后缀时,对23个声母字没有全部用完,保留有“n”,以便在语法分析需要时,作为改变字形时使用。例如,在分析句子时,由于句子中会出现数个动词,标明主要动词是很必要的,在动词后再加“n”,表示主动词,有利于语法分析。
例如:“我们的共产党和共产党所领导的八路军、新四军,是革命的队伍。”这句话用表音汉字表示时为:
“Wo rmenp de gong chanv dang he gong chanv dang suom ywlingv cwdaop de bar lup jun、xinh sir jun,shid get mingb de dui rwur.”在这句话中,动词有三处: chanv(产)、ywlingv(领)、shid(是)。显然,shid(是)为主要动词,标明shid(是)为“shidn”,对计算机识别是有利的。语法是智能运用的依托,不解决汉语语法的显性表示问题,就不利于汉语的人工智能运用。
五、展望
人类又一次迎来了新一轮的技术革命。这次由大规模数据、智能化生产以及无线网络所引领的技术革命,将推动经济增长,带来社会巨变。
信息技术已经进入一个大规模数据时代。处理能力和数据存储实际上是免费的。掌上数码设备如iPhone手机的运算能力能让上世纪70年代的IBM主机自愧不如。互联网正演变为“云”网络——所谓“云”是指一个由数以千计的数据中心都可以让1990年的任何一台超级计算机看上去像是洪荒年代的产物。惊人的数据处理能力使以往无法想象的服务和业务成为可能。这其中就包括文字的处理能力,由此可见,表音汉字有利于大规模信息处理。
基于计算机设计的,自然界不可能有的物质特性的新材料,如隐形材料被设计出来,这些新材料与三维打印相结合,会对经济发展产生爆炸性影响。所谓三维打印实际上是利用计算机、激光、新材料,“打印”飞机等精密零部件。这种近乎完美的计算化设计和直接制造的时代,令人们制造产品的方式产生巨大的改变。所以,支撑计算机软件的计算机语言,并不是一个转瞬即逝的社会现象,而是一个长期支撑社会实践过程的客观事物,千万不要轻视计算机语言的社会价值,我国应该有中文的计算机语言。
对自然语言的理解,一直是语言信息处理技术的一个高层次的重要研究方向,一直是人工智能所关注的核心课题之一。显然,如果计算机能够理解自然语言,人-机间的信息交流能够以人们所熟悉的本族语言来进行,那将是计算机技术的一项重大突破。另一方面,由于创造和使用自然语言是人类高度智能的表现,因此对自然语言理解的研究也有助于揭开人类智能的奥秘,深化我们对语言能力和思维本质的认识。所以说,这个研究方向在语言应用方面和语言理论方面都有重大意义。
参考文献:
[1]赵毅衡.符号学文学论文集[C].天津:百花文艺出版社,2004.
[2]何立.语言文字词典[M].北京:学苑出版社,1999.
[3]石纯一等.人工智能原理[M].北京:清华大学出版社,1993.
[4]李行健.现代汉语规范词典[Z].北京:外语教学与研究出版社,
2010.
[5]陈耀西,陈红根.《走自主信息化之路》,IEEE文库,2011.
(陈耀西 河南郑州 解放军信息工程大学测绘学院 450052;陈红根 河南郑州 河南职业技术学院 450046)