论文部分内容阅读
中文信息处理不仅对学术研究至关重要,而且具有战略意义,它决定着中国在信息化世界中的地位,也决定未来中国文化的全球竞争力。
2017年初,北京师范大学汉字研究与现代应用实验室落成。
为培养汉语汉字研究的自主创新型人才,北京师范大学教授王宁常来此讲座,她偶尔还会谈到自己首次接触计算机、考虑将现代信息技术与传统语言文字学研究结合的历程。
二十年前,在飞往北美讲学的途中,王宁坐在舷窗边,跨越时区的飞行使眼前的景观于黑夜、黄昏和黎明之间变化。改革开放中的中国,变化和革新的图景正如舷窗外的景色,气象万千。
王宁有感而发,在1997年8月发表于《光明日报》的文章《舷窗》中写道:“人生当追求辽远,不然便去追求速度。”
追求辽远与速度,指向的都是发展。作为“章黄学派”的传人,彼时王宁正思索着传统语言文字学的时代任务与前景。
汉字已流传了3600余年,而研究文字、音韵和训诂诸学的传统语言文字学,自汉代由“字圣”许慎真正系统化后,已历时近1900年。正因如此,它向来被认为是最基础和最传统的学科,然而,似乎又和现代科技、改革创新之间没有什么关联。
在时代的浪潮下,一个千年学科如何完成现代化改造、通过创新走向未来?其中的故事,也正是中国各行各业四十年来改革创新的缩影。
1978年,党的十一届三中全会召开,确立了“解放思想、实事求是”的思想路线,实行改革开放和开辟中国特色社会主义道路的征程开始了。
在这样的背景下,学坛复苏、科教振兴,传统人文学科重获重视,逐渐从专业凋零和人才断档的阴影中走了出来。
王宁的老师、训诂学家陆宗达推动了训诂学的复苏与当代发展。1988年陆宗达逝世,彼时,传统语言文字学向现代语言学的转型,已完成了奠基。
从老师手中接过衣钵,王宁未敢懈怠。她看到传统人文学科在复兴的同时,正面临全新的、多方面的危机。
上个世纪80年代末到90年代初,科学技术和应用学科更受重视,传统人文学科发展不力。在开放的环境下,西方学术开始引进,本民族文化传统在一定程度上被忽视。
虽然自己所研究的学科传统深厚,但毕竟与现代人之间存有隔阂,其社会应用价值也还没有被深入开掘。坚守文化是必然担当,让学科适应于时代、贡献于时代,也尤为迫切。
在改革开放的大环境下,传统人文学科皆面临如此困境:“是放弃继承的本色,改走一条轻松的道路,还是沿着原有的路,任学科自生自灭?”
回顾这一时期,王宁曾写道:“不仅要坚守在继承传统这个责无旁贷的岗位上,而且要使传统学科与现代接轨,求得更快、更好的发展。”
这时的青年学者,要与国际学术界对话,搜集全世界的学术信息,从而让自己有更高的起点;也要学习出土文字和新发现的典籍,从而充实材料、推进研究……
大量的工作仅靠做卡片、跑各地档案馆这类传统方式,不仅耗时耗力,也不够系统。王宁感到,必须创造条件,让下一代学者使用信息化手段更大量、更准确地贮存和整理材料。
“那时王宁老师已敏锐感觉到,信息化手段在未来的研究中和使用中都将非常重要。”北京师范大学汉字与中文信息处理研究所(简称“汉字所”)副所长周晓文对《瞭望东方周刊》说。
媒介的变革悄然而迅速。中文信息处理不仅对学术研究至关重要,而且具有战略意义,它决定着中国在信息化世界中的地位,也决定未来中国文化的全球竞争力。
1993年4月,汉字所正式成立,由王宁担任所长,建立了以计算机为研究手段的古汉字与古汉语实验室,不断完善汉字构形学和理论训诂学,努力使传统语言文字学与现代接轨。
“这一切无非是希望使传统语言文字学更适应当代。”进入新世纪,王宁所带领的学科点将坚持继承和努力更新的发展道路概括为两句话:“师古而不复古,坚守而不保守。”
“如果不是王老師花这么多的精力推到现在,这样一个传统学科恐怕如今已经很少有人关注。”北京师范大学信息科学与技术学院教授、北京师范大学语言与文字资源研究中心主任宋继华对《瞭望东方周刊》说。
1993年11月,宋继华第一次来到王宁的住所,开门时,刚好响起八点整的报时。王宁对他笑道:“不愧是学计算机专业的,说晚上8点到就8点到。”
当时,宋继华正跟随教育技术学专家何克抗研究一种既符合汉字学规律、又结合中小学语文教学和计算机技术的输入法。
何克抗将他引荐给了王宁,宋继华看见王宁家中已有一台老式苹果电脑。“是朋友从美国给她带回来的,这时她便开始尝试在电脑上输入汉字了。”他说,“如今跨学科的思维已经渗透到各个领域,但王老师很早就意识到了这一点。”
1994年起,汉字所便开始引进并招收计算机专业的硕士攻读博士,实现了文理科的交叉。周晓文和宋继华等人,由此从计算机专业跨入了传统语言文字学研究。
宋继华很快遇到了学科之间的门槛,“和我同宿舍的人文社会科学出身的研究生,翻材料一翻就翻到了,我半天找不到,都是繁体字、竖排版,最后只有拿笔来抄。”
和基本的阅读训练相比,思维的转变更是难题。宋继华说:“工科做一个杯子可以装水,做一个包可以装东西,那时我不知道研究《说文解字》有多大用处。”
如今,宋继华感慨:“真正的交叉是不同学科的思想融合。”将重应用的理工科思维融进来,直接为传统语言文字学的创新发展提供了思路和机遇。
周晓文对本刊记者介绍,汉字所首先将目光聚焦在了小篆和甲骨文的现代应用上。 小篆是我国古文字中较早且经过整理的最完善的汉字系统,是连接古今汉字的桥梁和纽带,而甲骨文被认为是最早的汉字形体,让这两种字体进入计算机,无论对研究还是出版应用,都至关重要。
上世纪90年代末,汉字所开发出了专业版《说文小篆字库及输入法》《甲骨文字库及输入法》,率先解决了当时计算机不能编辑处理古文字的问题。2000年,《说文小篆字库及输入法》由北京出版社正式出版发行,至今仍在國内外广泛应用于出版印刷、汉字教学等方面。
“传统语言文字学和信息技术的结合,是典型的学科交叉,也是传统学科发展的必由之路。”周晓文说。
创新的方向,无疑是与时俱进、求真务实,从而应时代之需。王宁说:“如果采用了一个计算机字库里没有的字,报名、取钱、发报、贷款、登机等都难以办成。”
我国在1980年制定的编码标准GB2312-80,给6763个汉字编了代码,也就是说,当时的计算机只能处理这些汉字。显然,区区6763个汉字是无法适应中文信息处理需求的。打不出字或字符转换中出现乱码,是当时常见的情况。
1993年,国际编码标准ISO/IEC10646出台,并一直不断纳入大量汉字,使编码字符集的字量飙升,至今已正式编码的汉字接近十万。但它承担的是汉字文化圈“通天塔”的作用,因此是简繁、正异、新旧并存,多语言用字并存的杂收字集,并不能满足我国规范汉字的使用需要。
因此,教育部、国家语言文字工作委员会历时十余年组织研制了《通用规范汉字表》,由王宁担任研制组组长,该表在2013年6月由国务院正式发布,与编码规范相互配合,构成了一个完整的简化汉字规范体系。
另一方面,无论是国家标准还是国际标准,现有的计算机字库都有收字不全和字际关系不清的问题,以至于小到地名、人口普查,大到国家的经济、地理空间等战略性、基础性的信息库建设,仍存在用字缺口。
于是,“中华字库”工程应运而生。
该工程是国家新闻出版重大科技工程建设项目,已列入《国家“十一五”时期文化发展规划纲要》《国家“十二五”时期文化发展规划纲要》《文化产业振兴规划》,旨在建立全部汉字及少数民族文字的编码和主要字体字符库。
在周晓文看来,提高中文信息处理能力是我国数字化建设的基础,而汉字研究又是基础中的基础。
因此,“中华字库”不是简单地收集中国古今所有文字形体进行编码整理,还要从数千年流传下来的文字载体中确定文字形体的历史演变,整理字际关系。
北京师范大学独立承担的“‘中华字库’版刻楷体字书文字整理”项目包,就是要通过在全世界范围内搜集中国古代字书,从中选取重要字书及版本进行全面的数字化处理,进一步夯实汉字研究的数据基础。
显然,这也是“让收藏在禁宫里的文物、陈列在广阔大地上的遗产、书写在古籍里的文字都活起来”的必要条件。
“举例来说,未来这个项目包得到广泛应用后,人们在看古籍时查其中的某个字,它的字形、字音、字义和演变过程,都可以快速便捷地显示出来。”周晓文说。
“我们多年来的研究成果,如何更多地转化成对社会生活有益的产品?首先就要建立载体,形成一个真正反映汉字研究和应用成果的平台。”宋继华说。
宋继华认为,当前大学普遍存在“都在做项目,没有做产品”的问题,要做产品,就需要长期钻研和完善,但是国家对大学创新研究的财政鼓励机制仍然偏向于单个项目,而不是“一个点的长期创新”。
为了在继承以往成果的基础上开启新的生面,北京师范大学自2014年初开始筹备建设汉字研究与现代应用实验室(以下简称“实验室”),2017年初,实验室落成并投入使用。
实验室副主任、北京师范大学文学院教授齐元涛对《瞭望东方周刊》概括,实验室首先是做相关基础数据的积累,最终走向应用,实现成果转化。
过去的研究虽然已经采用信息化手段,但仍然缺乏对成果的全面资源整合,也就无法系统化。无论对学术研究的继续创新,还是对产品研发来说,这都形成了障碍。
“现在就是把过去碎片化的东西慢慢梳理出来,然后让这些学术思想变成可以广泛使用的软件。”宋继华说。
目前,社会上已经存在不少汉字教学软件产品,但是或多或少都存在着浅俗化的汉字构意臆测与伪科学的汉字文化解读。
齐元涛举例说,有人在开发产品时,将“谎”字的右半边画成狐狸,“因为狐狸狡猾爱说谎”,以此“帮助”儿童进行识字记字的联想。也有人想科学解读汉字,但由于缺乏专业知识而导致了误读。
为了给学习者传播正确的汉字认知规律,北京师范大学与北京航空航天大学联合研发了汉字学精品课《汉字演变》。
《汉字演变》由北京天人同达软件科技有限公司制作出品,计划为九百个常用汉字提供形体演变和构意解析的详解,目前已更新三百余字,甄选并高清扫描了汉字演化关键历史时期的大量经典汉字文物字形图片,可以动态呈现汉字从殷商甲骨文到现代楷书的演变过程。
这是实验室面向基础教育提供汉字教学软件应用与服务的一例。而在全球“汉语热”和中国文化“走出去”步伐加快的背景下,实验室还整合了国际汉字汉语教育的所有教材资源,并将编辑更能体现新近研究成果的新教材。
与此同时,实验室的工作还有:推进面向古籍印刷的字形标准研制,为政府提供繁体汉字字形标准;推进国际化的古汉字编码标准研制,为国际编码组织提供编码方案等。
作为北京师范大学重点建设项目,实验室正力争实现建成国家重点实验室的目标。
2002年北京师范大学百年校庆时,王宁曾撰文说:“学科点跟随北师大经历了百年的长途,但我们没有丝毫轻松的感觉,我们更没有一点一滴的满足,因为我们面临的不是终点。”
在宋继华看来,除了做具体项目之外,搞好基础建设,不断给后来者造就条件,才能让一个学科有持续创新的传统和能力。
“要实现创新,说到根上,就要有‘把一个点做透’的工匠精神。”宋继华对本刊说。
2017年初,北京师范大学汉字研究与现代应用实验室落成。
为培养汉语汉字研究的自主创新型人才,北京师范大学教授王宁常来此讲座,她偶尔还会谈到自己首次接触计算机、考虑将现代信息技术与传统语言文字学研究结合的历程。
二十年前,在飞往北美讲学的途中,王宁坐在舷窗边,跨越时区的飞行使眼前的景观于黑夜、黄昏和黎明之间变化。改革开放中的中国,变化和革新的图景正如舷窗外的景色,气象万千。
王宁有感而发,在1997年8月发表于《光明日报》的文章《舷窗》中写道:“人生当追求辽远,不然便去追求速度。”
追求辽远与速度,指向的都是发展。作为“章黄学派”的传人,彼时王宁正思索着传统语言文字学的时代任务与前景。
汉字已流传了3600余年,而研究文字、音韵和训诂诸学的传统语言文字学,自汉代由“字圣”许慎真正系统化后,已历时近1900年。正因如此,它向来被认为是最基础和最传统的学科,然而,似乎又和现代科技、改革创新之间没有什么关联。
在时代的浪潮下,一个千年学科如何完成现代化改造、通过创新走向未来?其中的故事,也正是中国各行各业四十年来改革创新的缩影。
师古而不复古,坚守而不保守
1978年,党的十一届三中全会召开,确立了“解放思想、实事求是”的思想路线,实行改革开放和开辟中国特色社会主义道路的征程开始了。
在这样的背景下,学坛复苏、科教振兴,传统人文学科重获重视,逐渐从专业凋零和人才断档的阴影中走了出来。
王宁的老师、训诂学家陆宗达推动了训诂学的复苏与当代发展。1988年陆宗达逝世,彼时,传统语言文字学向现代语言学的转型,已完成了奠基。
从老师手中接过衣钵,王宁未敢懈怠。她看到传统人文学科在复兴的同时,正面临全新的、多方面的危机。
上个世纪80年代末到90年代初,科学技术和应用学科更受重视,传统人文学科发展不力。在开放的环境下,西方学术开始引进,本民族文化传统在一定程度上被忽视。
虽然自己所研究的学科传统深厚,但毕竟与现代人之间存有隔阂,其社会应用价值也还没有被深入开掘。坚守文化是必然担当,让学科适应于时代、贡献于时代,也尤为迫切。
在改革开放的大环境下,传统人文学科皆面临如此困境:“是放弃继承的本色,改走一条轻松的道路,还是沿着原有的路,任学科自生自灭?”
回顾这一时期,王宁曾写道:“不仅要坚守在继承传统这个责无旁贷的岗位上,而且要使传统学科与现代接轨,求得更快、更好的发展。”
这时的青年学者,要与国际学术界对话,搜集全世界的学术信息,从而让自己有更高的起点;也要学习出土文字和新发现的典籍,从而充实材料、推进研究……
大量的工作仅靠做卡片、跑各地档案馆这类传统方式,不仅耗时耗力,也不够系统。王宁感到,必须创造条件,让下一代学者使用信息化手段更大量、更准确地贮存和整理材料。
“那时王宁老师已敏锐感觉到,信息化手段在未来的研究中和使用中都将非常重要。”北京师范大学汉字与中文信息处理研究所(简称“汉字所”)副所长周晓文对《瞭望东方周刊》说。
媒介的变革悄然而迅速。中文信息处理不仅对学术研究至关重要,而且具有战略意义,它决定着中国在信息化世界中的地位,也决定未来中国文化的全球竞争力。
1993年4月,汉字所正式成立,由王宁担任所长,建立了以计算机为研究手段的古汉字与古汉语实验室,不断完善汉字构形学和理论训诂学,努力使传统语言文字学与现代接轨。
“这一切无非是希望使传统语言文字学更适应当代。”进入新世纪,王宁所带领的学科点将坚持继承和努力更新的发展道路概括为两句话:“师古而不复古,坚守而不保守。”
文理交叉,必由之路
“如果不是王老師花这么多的精力推到现在,这样一个传统学科恐怕如今已经很少有人关注。”北京师范大学信息科学与技术学院教授、北京师范大学语言与文字资源研究中心主任宋继华对《瞭望东方周刊》说。
1993年11月,宋继华第一次来到王宁的住所,开门时,刚好响起八点整的报时。王宁对他笑道:“不愧是学计算机专业的,说晚上8点到就8点到。”
当时,宋继华正跟随教育技术学专家何克抗研究一种既符合汉字学规律、又结合中小学语文教学和计算机技术的输入法。
何克抗将他引荐给了王宁,宋继华看见王宁家中已有一台老式苹果电脑。“是朋友从美国给她带回来的,这时她便开始尝试在电脑上输入汉字了。”他说,“如今跨学科的思维已经渗透到各个领域,但王老师很早就意识到了这一点。”
1994年起,汉字所便开始引进并招收计算机专业的硕士攻读博士,实现了文理科的交叉。周晓文和宋继华等人,由此从计算机专业跨入了传统语言文字学研究。
宋继华很快遇到了学科之间的门槛,“和我同宿舍的人文社会科学出身的研究生,翻材料一翻就翻到了,我半天找不到,都是繁体字、竖排版,最后只有拿笔来抄。”
和基本的阅读训练相比,思维的转变更是难题。宋继华说:“工科做一个杯子可以装水,做一个包可以装东西,那时我不知道研究《说文解字》有多大用处。”
如今,宋继华感慨:“真正的交叉是不同学科的思想融合。”将重应用的理工科思维融进来,直接为传统语言文字学的创新发展提供了思路和机遇。
周晓文对本刊记者介绍,汉字所首先将目光聚焦在了小篆和甲骨文的现代应用上。 小篆是我国古文字中较早且经过整理的最完善的汉字系统,是连接古今汉字的桥梁和纽带,而甲骨文被认为是最早的汉字形体,让这两种字体进入计算机,无论对研究还是出版应用,都至关重要。
上世纪90年代末,汉字所开发出了专业版《说文小篆字库及输入法》《甲骨文字库及输入法》,率先解决了当时计算机不能编辑处理古文字的问题。2000年,《说文小篆字库及输入法》由北京出版社正式出版发行,至今仍在國内外广泛应用于出版印刷、汉字教学等方面。
“传统语言文字学和信息技术的结合,是典型的学科交叉,也是传统学科发展的必由之路。”周晓文说。
应时之需
创新的方向,无疑是与时俱进、求真务实,从而应时代之需。王宁说:“如果采用了一个计算机字库里没有的字,报名、取钱、发报、贷款、登机等都难以办成。”
我国在1980年制定的编码标准GB2312-80,给6763个汉字编了代码,也就是说,当时的计算机只能处理这些汉字。显然,区区6763个汉字是无法适应中文信息处理需求的。打不出字或字符转换中出现乱码,是当时常见的情况。
1993年,国际编码标准ISO/IEC10646出台,并一直不断纳入大量汉字,使编码字符集的字量飙升,至今已正式编码的汉字接近十万。但它承担的是汉字文化圈“通天塔”的作用,因此是简繁、正异、新旧并存,多语言用字并存的杂收字集,并不能满足我国规范汉字的使用需要。
因此,教育部、国家语言文字工作委员会历时十余年组织研制了《通用规范汉字表》,由王宁担任研制组组长,该表在2013年6月由国务院正式发布,与编码规范相互配合,构成了一个完整的简化汉字规范体系。
另一方面,无论是国家标准还是国际标准,现有的计算机字库都有收字不全和字际关系不清的问题,以至于小到地名、人口普查,大到国家的经济、地理空间等战略性、基础性的信息库建设,仍存在用字缺口。
于是,“中华字库”工程应运而生。
该工程是国家新闻出版重大科技工程建设项目,已列入《国家“十一五”时期文化发展规划纲要》《国家“十二五”时期文化发展规划纲要》《文化产业振兴规划》,旨在建立全部汉字及少数民族文字的编码和主要字体字符库。
在周晓文看来,提高中文信息处理能力是我国数字化建设的基础,而汉字研究又是基础中的基础。
因此,“中华字库”不是简单地收集中国古今所有文字形体进行编码整理,还要从数千年流传下来的文字载体中确定文字形体的历史演变,整理字际关系。
北京师范大学独立承担的“‘中华字库’版刻楷体字书文字整理”项目包,就是要通过在全世界范围内搜集中国古代字书,从中选取重要字书及版本进行全面的数字化处理,进一步夯实汉字研究的数据基础。
显然,这也是“让收藏在禁宫里的文物、陈列在广阔大地上的遗产、书写在古籍里的文字都活起来”的必要条件。
“举例来说,未来这个项目包得到广泛应用后,人们在看古籍时查其中的某个字,它的字形、字音、字义和演变过程,都可以快速便捷地显示出来。”周晓文说。
“我们面临的不是终点”
“我们多年来的研究成果,如何更多地转化成对社会生活有益的产品?首先就要建立载体,形成一个真正反映汉字研究和应用成果的平台。”宋继华说。
宋继华认为,当前大学普遍存在“都在做项目,没有做产品”的问题,要做产品,就需要长期钻研和完善,但是国家对大学创新研究的财政鼓励机制仍然偏向于单个项目,而不是“一个点的长期创新”。
为了在继承以往成果的基础上开启新的生面,北京师范大学自2014年初开始筹备建设汉字研究与现代应用实验室(以下简称“实验室”),2017年初,实验室落成并投入使用。
实验室副主任、北京师范大学文学院教授齐元涛对《瞭望东方周刊》概括,实验室首先是做相关基础数据的积累,最终走向应用,实现成果转化。
过去的研究虽然已经采用信息化手段,但仍然缺乏对成果的全面资源整合,也就无法系统化。无论对学术研究的继续创新,还是对产品研发来说,这都形成了障碍。
“现在就是把过去碎片化的东西慢慢梳理出来,然后让这些学术思想变成可以广泛使用的软件。”宋继华说。
目前,社会上已经存在不少汉字教学软件产品,但是或多或少都存在着浅俗化的汉字构意臆测与伪科学的汉字文化解读。
齐元涛举例说,有人在开发产品时,将“谎”字的右半边画成狐狸,“因为狐狸狡猾爱说谎”,以此“帮助”儿童进行识字记字的联想。也有人想科学解读汉字,但由于缺乏专业知识而导致了误读。
为了给学习者传播正确的汉字认知规律,北京师范大学与北京航空航天大学联合研发了汉字学精品课《汉字演变》。
《汉字演变》由北京天人同达软件科技有限公司制作出品,计划为九百个常用汉字提供形体演变和构意解析的详解,目前已更新三百余字,甄选并高清扫描了汉字演化关键历史时期的大量经典汉字文物字形图片,可以动态呈现汉字从殷商甲骨文到现代楷书的演变过程。
这是实验室面向基础教育提供汉字教学软件应用与服务的一例。而在全球“汉语热”和中国文化“走出去”步伐加快的背景下,实验室还整合了国际汉字汉语教育的所有教材资源,并将编辑更能体现新近研究成果的新教材。
与此同时,实验室的工作还有:推进面向古籍印刷的字形标准研制,为政府提供繁体汉字字形标准;推进国际化的古汉字编码标准研制,为国际编码组织提供编码方案等。
作为北京师范大学重点建设项目,实验室正力争实现建成国家重点实验室的目标。
2002年北京师范大学百年校庆时,王宁曾撰文说:“学科点跟随北师大经历了百年的长途,但我们没有丝毫轻松的感觉,我们更没有一点一滴的满足,因为我们面临的不是终点。”
在宋继华看来,除了做具体项目之外,搞好基础建设,不断给后来者造就条件,才能让一个学科有持续创新的传统和能力。
“要实现创新,说到根上,就要有‘把一个点做透’的工匠精神。”宋继华对本刊说。