论文部分内容阅读
摘 要:《说文解字义证》信息化过程中处理异体字是个难题,采用保真和整理相结合的原则能确保全书的系统性并方便计算机处理。这种方式能为古籍信息化中异体字处理提供借鉴。
关键词:《说文解字义证》 信息化 异体字
古籍信息化能“将计算机对语料的形式化处理和专家对语料的分析判断结合起来,充分发挥计算机和人的各自的特长,从而推动汉语史研究的迅猛发展。”[1](p60)古籍信息化,首先必须实现文本字符的信息化,在此基础上,才能利用计算机的优势对古籍资源信息处理以辅助汉语史研究。本文以桂馥《说文解字义证》(以下简称《义征》)为例讨论其处理原则和具体方法。
一、《义证》中的异体字
学术界对异体字的看法不一,我们采用裘锡圭的观点[2],把异体字分为狭义异体字和部分异体字。
《义证》对许慎《说文解字》(以下简称《说文》)做了全方位的研究,在文字训诂学领域具有重要地位;《义证》保存的异体字不仅类型多样,而且数量巨大:首先,《说文》一书本身存在不少重文。许慎指出的就有“古文(壁中书)”“籀文(大篆)”“奇字”“或字”“今字”等多种类型,还有一些异体字没被《说文》列入重文而是分立字头;其次,桂馥广泛征引古籍,而这些古籍在流传过程中又产生了不少异体字。所以,处理好《义证》能为其他古籍信息化中异体字的处理提供借鉴。
二、处理原则及方法
针对《义证》信息化过程中存在的异体字问题,我们采用保真与整理相结合的原则。包括《义证》在内的古籍信息化,主要是辅助语言学家进行汉语史研究的,我们应该尽量保持古籍在形式上的原貌。然而,《义证》存在的大量异体字本质上属于手写文字,规范程度很低,如果追求对这类字形的保真,汉字字库恐怕永远难以满足需要,也根本无法实现真正意义上的信息化处理。所以,我们应在保证内容系统性和正确性的情况下对不规范的异体用字进行整理。
(一)《义证》信息化过程中,碰到一改变字形就影响上下文意思或全书系统性时,必须保持原本字形而不必改为古籍通用形式。这包括如下几种情况:
1.强调本字
(1)斯—廝
斯,析也。從斤,其聲。《詩》曰:“斧以斯之。”字或作“廝”。……韋昭曰:“析薪曰斯,炊烹曰餐。”(第四十六卷)
“斯”和“廝”都有“分”义,它们是一对异体字。例(1)是强调“斯”的本义,所以韦昭提及的“斯”必须保留字形不能用“廝”替代。
2.《说文》的重文
《说文》中的重文分同部重文和异部重文两种情况:
1)同部重文是指重文和正字在同一部首内的异体字,如:
(2)糂—糣—糝
糂,以米和羹也。一曰粒也。從米甚聲。桑感切。(第二十卷)
糣,籀文糂。從朁。(第二十卷)
糝,古文糂。從參。(第二十卷)
许慎先列出“糂”字,随后列出该字的重文“糣”“糝”。例(2)中的古文或籀文字形,如果改为通用的“糂”,则会破坏全书系统性,读者将不知所云,计算机检索结果也会出现问题。
2)许慎在《说文》中明确指出的重文有1163个。但是还有许多本为异体的字却把它们当作不同的词分别加以分析和解说。这种与正字不在同一部,但实际是异体的字就是异部重文,如:
(3)鯁—骾
鯁,魚骨也。(第十一卷)
骾,食骨留咽中也。(第四卷)
这两个词前一个是名词用法,后一个是动词用法。体用同称是古人用字的习惯,它们应当是同一个词。段玉裁在《说文解字注》中曾经考证出二百余处异部重文。比如木部中“楙”,解释为:“楙,木盛也。”下注曰:“此與艸部茂音義皆同,分草木耳。”对于这类异体字我们也应当保留其原貌。
3.用以互训
(4)樛—朻
樛,下句曰樛。从木翏聲。吉虯切。下句曰:“樛者與下文朻字訓。”……馥案:樛、朻二字,同聲相通。(第十六卷)
“樛”和“朻”是组异体字,当它们互训时,不能将它们统一成一种字形,否则就会让读者迷惑不解,也给日后计算机处理造成不便。
4.强调形体差异
(5)罪—辠
罪,捕魚竹网。從网、非。秦以罪為辠字。徂賄切。捕魚竹网者。徐鍇引《詩》:“畏此罪罟。”又《瞻卬》:“罪罟不收。”傳云:“設罪以為罟。”秦以罪為辠字者。本書辠字云:“秦以辠字似皇字,改為罪。”(第二十三卷)
(6)逾—踰—愈—俞—癒
逾,𨒋進也。從辵俞聲。《周書》曰:“無敢昬逾。”羊朱切。經典作“踰”字。《易•謙卦》:“卑而不可踰。”《王制》:“朋友不相踰。”《曲禮》:“禮不踰節。”《孟子》:“禮,朝廷不曆位而相與言,不踰階而相揖也。”又借“愈”字。《論語》:“熟愈。”《孟子》:“丹之治水也,愈齡禹。”趙注:“自謂過禹也。”又借“俞”字。《荀子》:“俞少俞辱。”又借“癒”字。《藝文志》:“不猶癒於其野乎?”(第六卷)
例(5)中,我们如果把“辠”写成“罪”的话,读者就看不出它在字形上和“皇”的相似之处。而且不同的古籍会用不同的字形表示同一音义,如例(6)所示,“逾”在不同的古籍中出现了多达五种字形。这些异体字是我们研究汉字发展的有用证据,也应该保留其原貌。
(二)在不影响上下文语义及全书系统性,且改变后既能方便读者阅读又有利于计算机统计的情况下,我们应该将某些狭义异体字处理成一个便于辨认理解的通用形式。这类字大体有如下几种情况:
1.笔形有细微差别
古籍多为雕版印刷的,由于书写人和刻工的习惯不同,在不同书籍中,同一字的笔画结构往往不同。我们应将这类异体字统一规范。
(7)良,善也。從畗省,兦聲。呂張切。善也者。《廣雅》同《詩·日月》:“德音無良。”《鶉之奔奔》:“人之無良。”傳並云:“良,善也。”(第十五卷)
(8)㮝,角械也。從木欲聲。一曰木下白也。其逆切。角械也者,《廣雅》:“梏、衡、楅,郤也。”《周禮·封人》:“設其楅衡”,鄭注:“元謂:楅設於角,衡設於鼻。”馥案:施於角,故曰角械。(第十六卷)
(9)梴,木長也。從木延聲。《詩》曰:“松桷有梴。”丑連切。(第十六卷)
(10)糱,牙米也。從米嶭聲。魚列切。“《書·說命》:“若作酒醴;爾惟麴櫱。””(第二十一卷)
(11)畗,滿也。從高省。象高厚之形。凡畗之屬皆從畗。讀若付。房六切,又芳逼切。(第十五卷)
(12)宥,寛也,從宀有聲。於救切。(第二十二卷)
(13)片,判木也。從半木。凡片之屬皆從片。匹見切。判木也者,《廣韻》:“片,半也、判也、析木也。”《論語》:“片言可以折獄者。”鄭注云:“片,半也。”……(第二十一卷)
(14)繇,瓜也。從瓜繇省聲。余昭切。(第二十二卷)
此类异体字主要有六种情况:第一,笔形的改变:例(7)中“良”在原书中侧点为一短横;第二,长度的伸缩:例(8)中“角”在原书中为“角”,中间的竖没出头,使用相同部件的“桷”也处理为“桷”,见例(9);例(10)中的左右结构“麴”在原文中是由半包围结构变来的;第三,笔画的连断:例(11)的“形”的部件在原书中字形是“幵”,横笔为互不相干的两笔;第四,笔画的减少,例(12)《义证》中的“寬”本有一点,现无;第五,相对方向或相对位置的变化,例(13)中“半、判”字开头两笔在原书中为八字形;第六,笔画的形变,例(14)中“繇”的左上部在书中字形与祭、然的左上部件相同。
2.部件相同而位置不同
(15)某,酸果也。從木甘。闕。莫厚切。通作梅。《夏小正》:“五月煮梅。”傳云:“為豆實也。”《管子·地員篇》:“五沃之土,宜彼群木,其梅其杏,其桃其李。”(第十六卷)
原书中采用的是上下结构的“羣”,我们选取其左右结构的通用字形。
(16)疽,癰也。從疒且聲。七余切。《史記·太倉公傳》:“齊侍御史成自言病頭痛,臣意診其脈,吿曰:此病疽也,內發於腸胃之閒,後五日當臃腫,後八日嘔膿死,成之病得之飲酒,且內成即如期死。”(第二十二卷)
在原书中用的是上下结构的𦡈,该字形不常用,我们将它统一为左右结构的“臃”。
古籍信息化中异体字的处理是个难题。李菊萍提出对“汉字进行完全独立的解码”[3](p33),这种独立于Unicode通用码之外的技术,既增加了古籍处理的难度,又难于实现真正意义上的信息化处理与应用;易敏提出“‘并正’趋向‘唯一’的规范原则”[4](p87),但是,面向汉语史研究的古籍数字化,必须保留古籍文本的原貌。以利于汉语研究。通过实践我们认为:保真与整理相结合的原则,既能充分保留古籍的原貌,又维护了系统性,具有通用性、可操作性、客观性的特点,有利于专家学者利用数字化文本进行汉语史研究。《尔雅正义》信息化处理与应用就是成功范例[5](p136-150)。
注 释:
[1]尉迟治平.计算机技术和汉语史研究[J].古汉语研究,2000,(3).
[2]裘锡圭.文字学概要[M].北京:商务印书馆,2003.
[3]李菊萍.档案馆数字化处理过程中的异体字问题[J].山西档案,2007,(1).
[4]易敏.石刻经文字研究与异体字整理问题[J].北京师范
大学学报(哲学社会科学版),2006,(1).
[5]张义,姜永超.《尔雅正义》引“贾谊书”考[J].淮北煤炭师范学院学报(哲学社会科学版),2007,(4).
(姜永超 秦皇岛 燕山大学国际教育学院 066004;郭翀 武汉 华中科技大学人文学院 430074)
关键词:《说文解字义证》 信息化 异体字
古籍信息化能“将计算机对语料的形式化处理和专家对语料的分析判断结合起来,充分发挥计算机和人的各自的特长,从而推动汉语史研究的迅猛发展。”[1](p60)古籍信息化,首先必须实现文本字符的信息化,在此基础上,才能利用计算机的优势对古籍资源信息处理以辅助汉语史研究。本文以桂馥《说文解字义证》(以下简称《义征》)为例讨论其处理原则和具体方法。
一、《义证》中的异体字
学术界对异体字的看法不一,我们采用裘锡圭的观点[2],把异体字分为狭义异体字和部分异体字。
《义证》对许慎《说文解字》(以下简称《说文》)做了全方位的研究,在文字训诂学领域具有重要地位;《义证》保存的异体字不仅类型多样,而且数量巨大:首先,《说文》一书本身存在不少重文。许慎指出的就有“古文(壁中书)”“籀文(大篆)”“奇字”“或字”“今字”等多种类型,还有一些异体字没被《说文》列入重文而是分立字头;其次,桂馥广泛征引古籍,而这些古籍在流传过程中又产生了不少异体字。所以,处理好《义证》能为其他古籍信息化中异体字的处理提供借鉴。
二、处理原则及方法
针对《义证》信息化过程中存在的异体字问题,我们采用保真与整理相结合的原则。包括《义证》在内的古籍信息化,主要是辅助语言学家进行汉语史研究的,我们应该尽量保持古籍在形式上的原貌。然而,《义证》存在的大量异体字本质上属于手写文字,规范程度很低,如果追求对这类字形的保真,汉字字库恐怕永远难以满足需要,也根本无法实现真正意义上的信息化处理。所以,我们应在保证内容系统性和正确性的情况下对不规范的异体用字进行整理。
(一)《义证》信息化过程中,碰到一改变字形就影响上下文意思或全书系统性时,必须保持原本字形而不必改为古籍通用形式。这包括如下几种情况:
1.强调本字
(1)斯—廝
斯,析也。從斤,其聲。《詩》曰:“斧以斯之。”字或作“廝”。……韋昭曰:“析薪曰斯,炊烹曰餐。”(第四十六卷)
“斯”和“廝”都有“分”义,它们是一对异体字。例(1)是强调“斯”的本义,所以韦昭提及的“斯”必须保留字形不能用“廝”替代。
2.《说文》的重文
《说文》中的重文分同部重文和异部重文两种情况:
1)同部重文是指重文和正字在同一部首内的异体字,如:
(2)糂—糣—糝
糂,以米和羹也。一曰粒也。從米甚聲。桑感切。(第二十卷)
糣,籀文糂。從朁。(第二十卷)
糝,古文糂。從參。(第二十卷)
许慎先列出“糂”字,随后列出该字的重文“糣”“糝”。例(2)中的古文或籀文字形,如果改为通用的“糂”,则会破坏全书系统性,读者将不知所云,计算机检索结果也会出现问题。
2)许慎在《说文》中明确指出的重文有1163个。但是还有许多本为异体的字却把它们当作不同的词分别加以分析和解说。这种与正字不在同一部,但实际是异体的字就是异部重文,如:
(3)鯁—骾
鯁,魚骨也。(第十一卷)
骾,食骨留咽中也。(第四卷)
这两个词前一个是名词用法,后一个是动词用法。体用同称是古人用字的习惯,它们应当是同一个词。段玉裁在《说文解字注》中曾经考证出二百余处异部重文。比如木部中“楙”,解释为:“楙,木盛也。”下注曰:“此與艸部茂音義皆同,分草木耳。”对于这类异体字我们也应当保留其原貌。
3.用以互训
(4)樛—朻
樛,下句曰樛。从木翏聲。吉虯切。下句曰:“樛者與下文朻字訓。”……馥案:樛、朻二字,同聲相通。(第十六卷)
“樛”和“朻”是组异体字,当它们互训时,不能将它们统一成一种字形,否则就会让读者迷惑不解,也给日后计算机处理造成不便。
4.强调形体差异
(5)罪—辠
罪,捕魚竹网。從网、非。秦以罪為辠字。徂賄切。捕魚竹网者。徐鍇引《詩》:“畏此罪罟。”又《瞻卬》:“罪罟不收。”傳云:“設罪以為罟。”秦以罪為辠字者。本書辠字云:“秦以辠字似皇字,改為罪。”(第二十三卷)
(6)逾—踰—愈—俞—癒
逾,𨒋進也。從辵俞聲。《周書》曰:“無敢昬逾。”羊朱切。經典作“踰”字。《易•謙卦》:“卑而不可踰。”《王制》:“朋友不相踰。”《曲禮》:“禮不踰節。”《孟子》:“禮,朝廷不曆位而相與言,不踰階而相揖也。”又借“愈”字。《論語》:“熟愈。”《孟子》:“丹之治水也,愈齡禹。”趙注:“自謂過禹也。”又借“俞”字。《荀子》:“俞少俞辱。”又借“癒”字。《藝文志》:“不猶癒於其野乎?”(第六卷)
例(5)中,我们如果把“辠”写成“罪”的话,读者就看不出它在字形上和“皇”的相似之处。而且不同的古籍会用不同的字形表示同一音义,如例(6)所示,“逾”在不同的古籍中出现了多达五种字形。这些异体字是我们研究汉字发展的有用证据,也应该保留其原貌。
(二)在不影响上下文语义及全书系统性,且改变后既能方便读者阅读又有利于计算机统计的情况下,我们应该将某些狭义异体字处理成一个便于辨认理解的通用形式。这类字大体有如下几种情况:
1.笔形有细微差别
古籍多为雕版印刷的,由于书写人和刻工的习惯不同,在不同书籍中,同一字的笔画结构往往不同。我们应将这类异体字统一规范。
(7)良,善也。從畗省,兦聲。呂張切。善也者。《廣雅》同《詩·日月》:“德音無良。”《鶉之奔奔》:“人之無良。”傳並云:“良,善也。”(第十五卷)
(8)㮝,角械也。從木欲聲。一曰木下白也。其逆切。角械也者,《廣雅》:“梏、衡、楅,郤也。”《周禮·封人》:“設其楅衡”,鄭注:“元謂:楅設於角,衡設於鼻。”馥案:施於角,故曰角械。(第十六卷)
(9)梴,木長也。從木延聲。《詩》曰:“松桷有梴。”丑連切。(第十六卷)
(10)糱,牙米也。從米嶭聲。魚列切。“《書·說命》:“若作酒醴;爾惟麴櫱。””(第二十一卷)
(11)畗,滿也。從高省。象高厚之形。凡畗之屬皆從畗。讀若付。房六切,又芳逼切。(第十五卷)
(12)宥,寛也,從宀有聲。於救切。(第二十二卷)
(13)片,判木也。從半木。凡片之屬皆從片。匹見切。判木也者,《廣韻》:“片,半也、判也、析木也。”《論語》:“片言可以折獄者。”鄭注云:“片,半也。”……(第二十一卷)
(14)繇,瓜也。從瓜繇省聲。余昭切。(第二十二卷)
此类异体字主要有六种情况:第一,笔形的改变:例(7)中“良”在原书中侧点为一短横;第二,长度的伸缩:例(8)中“角”在原书中为“角”,中间的竖没出头,使用相同部件的“桷”也处理为“桷”,见例(9);例(10)中的左右结构“麴”在原文中是由半包围结构变来的;第三,笔画的连断:例(11)的“形”的部件在原书中字形是“幵”,横笔为互不相干的两笔;第四,笔画的减少,例(12)《义证》中的“寬”本有一点,现无;第五,相对方向或相对位置的变化,例(13)中“半、判”字开头两笔在原书中为八字形;第六,笔画的形变,例(14)中“繇”的左上部在书中字形与祭、然的左上部件相同。
2.部件相同而位置不同
(15)某,酸果也。從木甘。闕。莫厚切。通作梅。《夏小正》:“五月煮梅。”傳云:“為豆實也。”《管子·地員篇》:“五沃之土,宜彼群木,其梅其杏,其桃其李。”(第十六卷)
原书中采用的是上下结构的“羣”,我们选取其左右结构的通用字形。
(16)疽,癰也。從疒且聲。七余切。《史記·太倉公傳》:“齊侍御史成自言病頭痛,臣意診其脈,吿曰:此病疽也,內發於腸胃之閒,後五日當臃腫,後八日嘔膿死,成之病得之飲酒,且內成即如期死。”(第二十二卷)
在原书中用的是上下结构的𦡈,该字形不常用,我们将它统一为左右结构的“臃”。
古籍信息化中异体字的处理是个难题。李菊萍提出对“汉字进行完全独立的解码”[3](p33),这种独立于Unicode通用码之外的技术,既增加了古籍处理的难度,又难于实现真正意义上的信息化处理与应用;易敏提出“‘并正’趋向‘唯一’的规范原则”[4](p87),但是,面向汉语史研究的古籍数字化,必须保留古籍文本的原貌。以利于汉语研究。通过实践我们认为:保真与整理相结合的原则,既能充分保留古籍的原貌,又维护了系统性,具有通用性、可操作性、客观性的特点,有利于专家学者利用数字化文本进行汉语史研究。《尔雅正义》信息化处理与应用就是成功范例[5](p136-150)。
注 释:
[1]尉迟治平.计算机技术和汉语史研究[J].古汉语研究,2000,(3).
[2]裘锡圭.文字学概要[M].北京:商务印书馆,2003.
[3]李菊萍.档案馆数字化处理过程中的异体字问题[J].山西档案,2007,(1).
[4]易敏.石刻经文字研究与异体字整理问题[J].北京师范
大学学报(哲学社会科学版),2006,(1).
[5]张义,姜永超.《尔雅正义》引“贾谊书”考[J].淮北煤炭师范学院学报(哲学社会科学版),2007,(4).
(姜永超 秦皇岛 燕山大学国际教育学院 066004;郭翀 武汉 华中科技大学人文学院 430074)