汉字基本笔画分“横竖撇点折”五类的应用效果分析

来源 :现代语文(语言研究) | 被引量 : 0次 | 上传用户:fuuxia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  一、“横竖撇点”四类
  
  汉字是由单笔画组成的,了解与分析汉字的基本笔画是汉字字形编码、排序与检索研究的基础。
  组成汉字的基本笔画有二十多种,如横(一)、竖(丨)、撇(丿)、点(丶)、捺(乀)、多种横折(乛乁乙)、多种竖折(亅乚)、多种撇折(く纟)等等,利用这些基本笔画就可以对汉字进行编码、排序与检索。但在汉字中,这些基本笔画的使用频度很不均衡,如横(一)竖(丨)撇(丿)点(丶)四种笔画分布很广,而十多种不同的折笔画分布很稀,这样的编码与排检方法不仅效率低而且使用困难。
  对于基本笔画多而杂且分布不均匀的问题,一个合理的解决方法是把基本笔画分为几类,把每个类作为分辨单元应用于汉字的编码与排检中。
  对汉字基本笔画怎样进行分类呢?最简单直观的分类是按基本笔画起笔的走向来分,分为四类:
  1.起笔画是从左到右:横,横提,各种横折笔画;
  2.起笔画是从上到下:竖,各种竖折;
  3.起笔画是从右上到左下:撇,各种撇折;
  4.起笔画是从左上到右下:点,捺,捺钩。
  通过笔画“横竖撇点”的四个走向来分,分类标准明确,概括性好,容易理解,各个基本笔画的归类都没有二义性。
  把汉字基本笔画分为“横竖撇点”四类,各类在汉字中的分布情况如何呢?下表是对汉字第一笔画(第一码)的类别进行统计的数据,统计对象是三个字符集:一是常用2500字,二是GB2312的6763个字,三是GBK的21003个字。
  


  可以看到,由于类数少,每类都包含了大量的汉字,并且分布不均匀。撇类与点类中的汉字数与平均数(25%)相当,但横区、竖区与平均数都相差约9%。
  
  二、“横竖撇点折”五类
  
  以“横竖撇点”四类为基础,把横与横折、竖与竖折、撇与撇折分开,把分出来的横折、竖折与撇折笔画另作为一类(折类),就形成了“横竖撇点折”五类的分类方法。
  这种分类方法的优点是增加了一个类别,也减少了各类中的汉字数目,也就增加了每个类别对汉字的分辨率。
  缺点是失去了基本笔画分类的明确准则,既不是按笔画的走向分类,如横折(乛)与竖折(乚),横折撇(乛)与撇折点(く),收笔的走向也不同;也不是按笔画的形状来分类,因为横折(乙)与撇折(く)等形状都很不同。
  把这些不同的折笔画归为一类,主要的原因应该是增加分类数,减少各类中汉字的数目,以提高字形编码和排序检索方法的效率。
  同样以三个字符集为统计对象,对汉字第一笔画(第一码)的类别进行统计,“横竖撇点折”五类在汉字中的分布情况如下表所示:
  


  可以看出,横区与折区中汉字数目与平均数相差很大(9%)。
  把汉字基本笔画分为“横竖撇点折”五类,已写入1965年中华人民共和国文化部和中国文字改革委员会发布的《印刷通用汉字字形表》,以及随后的有关国家语言文字标准与规范中,并被广泛地应用于汉字字形编码与排序检索等中文信息技术处理领域。
  汉字字形编码方案已申请专利的有百多种,已形成产品使用的也有十多种,这些方案都采用了汉字基本笔画分“横竖撇点折”五类的国家语言文字标准规范,实际的效果如何呢?以下以具有代表性的两种形码方案为例进行分析。
  “五笔字型”汉字输入法是字根类形码输入法,其字根表排布规则是把字根按其第一笔画的“横竖撇点折”分五个区,按字根第二笔画的“横竖撇点折”在区内分五个位,形成25个码。其结果是汉字在各个码中的分布极不均匀,如第一笔画是横,第二笔画是竖的字根有:十扌土艹木等;第一笔画是撇,第二笔画是竖折的字根有冂口囗日目见贝等,这些码上集中了太多的汉字,而第一笔是横,第二笔是折的字根却很少。如果要保持字根排布的规律性,即保持字根表的易记性,那么重码就太多,使得编码的效率很低,低过拼音输入法,而没有意义。为此五笔字型对字根做了大量的跨区跨位调整,重码率降低了,但字根表的序性破坏了,难学难记了。失去了严格序性的字根表,不适合用数字做编码符号,也就不能适用于数字键盘与手机。
  其它的字根码类输入法也都同样地采用了基本笔画按“横竖撇点折”分五类的规范,不同是选用的字根有所不同,字根所在的位置有所不同,方案的实际效果与“五笔字型”相似。
  “二笔”汉字输入法是双笔画类输入法,即把两个笔画的组合作为输入码,字根表也按第一笔画的“横竖撇点折”分五个区,按第二笔画的“横竖撇点折”在区内分五个位,形成25个输入码,其结果同样是汉字在各个码上的分布极不均匀。二笔输入法为了克服重码的问题,把字音做为补充码。由于拼音字母与数字没有直接的对应关系,因此二笔输入法也只适用于电脑的字母键盘,而不能适用于数字键盘与手机。
  20多年的汉字字形编码方案研究的实践,都遵循了汉字基本笔画分为“横竖撇点折”五类的国家标准,用它来规范形码字根表的分区排位,结果都没有做到汉字形码易学易记与快速高效的统一,都没有做到同一个方案在电脑字母大键盘、数字小键盘和手机上的统一通用。
  
  三、“横竖撇点”四类、“横横竖撇点”五区
  
  “和码”汉字输入法把汉字基本笔画分为“横竖撇点”四类,因横类集中了太多的汉字,在字根表分区上,将横类分为两个区,即把与其它笔画相离相接的横或横折作一个区,把与其它笔画相交的横(如扌土艹大木等)作为另一个区,在区内把字根按由简到繁的顺序排位。“和码”输入法的字根区位表如下:
  


  和码字根表的分类分区方法,保留了基本笔画分“横竖撇点”四类的标准明确、概括性直观性好等优点,字根表有严格的顺序规则。把这个顺序用12345五个数字表示,就形成了25个数字码,数字化后的和码,不仅易学易记,还能在电脑的字母键盘与数字键盘上使用,也能在手机键盘上使用,从而实现了和码在不同的输入设备上完全的统一通用。
  同样以三个字符集为统计对象,对汉字第一笔画(第一码)的区号进行统计,和码的“横横竖撇点”五区在汉字中的分布情况如下表所示:
  


  以GB2312字符集(6763字)为统计对象,对汉字第一笔画(第一码)的类别或区号进行统计,把三种不同分类分区方法在汉字中的分布情况,按汉字分配比例数由大到小顺序排列,比较如下:
  


  可以看到,和码的分类分区方法,使汉字在各区中的分布更为均匀,从而为汉字在25个码上的均匀分布,为减少重码提高输入速度提供了可能。从实际的编码统计数据来看,“和码”与“五笔字型”和“二笔”输入法相比,重码更少些,输入速度更快些。
  
  四、总结
  
  从上面的对比分析可以看出,因采用的基本笔画分类方法的不同,汉字形码编码方案的效果有着很大的差别。只有改变基本笔画的分类方法,汉字形码方案才会有突破。
  把汉字基本笔画分为“横竖撇点折”五类,从分类的概念上看,有标准不明确的问题,从字形编码的应用效果上看,没有“和码”采用的分类分区效果好,把这种基本笔画分类方法作为国家语言文字标准规范,用于“对中文信息处理,特别是对汉字键盘输入方法”起规范作用,其合理性值得进一步探讨。
  
  
  参考文献:
  [1]GB2312-1980.信息交换用汉字编码字符集—基本集[S].1981.
  [2]现代汉语常用字表[S].
  [3]汉字内码扩展规范(GBK)[S].1.0版
  [4]GF2001—2001.GB13000.1字符集汉字折笔规范[S].2001.
  [5]王永民.规范王码汉字电脑输入法及其键盘[P].中国专利号,98100684.1.
  [6]陈劲松.汉字阴阳双极声韵形码输入系统[P].中国专利号,96103095.X.
  [7]欧阳贵林.和码汉字数字输入法[P].中国专利号:ZL2004 1 0017084.6.
  [8]冯志伟.信息时代汉字的标准化与共通化[EB/OL].http://www.china-language.gov.cn/doc/fengzhiwei-lectures/02.pps
  
  (欧阳贵林,软件工程师,现居住加拿大渥太华市)
其他文献
“说服”一词从来都读“shuōfú”,然而几年前某名人忽然发现该读“shuìfú”,于是就在媒体上“shuìfú”起来。名人效应果然厉害,大家马上改口,就连一些语文老师也把持不住,不得不改读“shuìfú”,心里还惴惴地生怕别人笑话自己不知道文言里有个“说shuì”字。  笔者当时本想就此说两句,但大家正在兴头上不宜扫兴,况且人们常常唯名人是从。比如某数学权威对一年轻老师大谈“陈景润证明1+2=3
建立了同时测定塑料和纸质食品包装材料中6 种脂溶性荧光增白剂(FWA 135、FWA 184、 FWA 185、 FWA 199、FWA 378和FWA 393)的高效液相色谱方法.用三氯甲烷-乙腈( 3:7, v/v )混
最近我们发现一个有意思的语言现象,在桂柳方言中,特别是在桂北地区,“爽快”一词的意义与普通话中的意义不尽相同,一般而言,“爽快”有两种意思,一是舒适痛快;二是直爽。但是下面这些桂北方言中的用例,其中的“爽快”一词好像不是这两种意思,例如:  (1)你们能来我们这里,看得上我们家,就是我们的“爽快”了。  (2)以前这里的瑶寨一到三月三,六月六就“赶歌堂”,那田地里的小坡上都是来来往往穿着节日服装的
介绍了振动台测量控制系统、标定振动g值及减小标定误差的技术。在此基础上,介绍了利用HP34401A型数字万用表和微型计算机进行数据采集的通信技巧和编程技巧。利用这套系统,对
国务院早在1956年2月20日《国务院关于推广普通话的指示》中就已明确指出:“全国各报社、通讯社、杂志社和出版社的编辑人员,应该学习普通话和语法修辞常识,加强对稿件的文字编
由世界中医药学会联合会肝病专业委员会主办,北京中医药大学东直门医院、广西中医药大学第一附属医院、广西中医药大学附属瑞康医院联合承办的世界中联第六届肝病国际学术大
本文讨论了D={z│z∈C,│z│〈1}到D的共形自同构f的迭代与f的不动点之间的关系,得到1)若f有两个相异不动点在αD,则{^f[n]}在D内部局部一致收敛于较1√f^-1(0)远的那个不动点;(2)若f有且仅有一个不动点在αD上,则{f^[n]}在D内
建立了QuEChERS前处理-高效液相色谱-串联质谱(HPLC-MS/MS)同时检测植物源食品中氯啶菌酯和丙炔恶草酮残留量的分析方法。样品经酸化乙腈提取,采用乙二胺-N-丙基硅烷(PSA)和氨基(N
鄂州市位于湖北省的东部,长江中游南岸。全市总面积1504平方公里,整个版图轮廓呈“三叶型”,辖鄂城、华容、梁子湖三个县级行政区和国营长港农场。1991年末统计,全市总人口93万。西接“九省通衢”的武汉,东连“矿冶之城”的黄石,北与黄冈地区隔江相望,南同咸宁地区毗邻。鄂州方言属于西南官话区,是武汉方言的一个次方言,其方言自成一体,保留了许多古音古义。许多方言词无法进入现在通用的书面语中,在编写方志、
目的:探讨通络止痛方对人膝关节骨性关节炎(Knee Osteoarthritis,KOA)滑膜成纤维细胞增殖的影响。方法:取本院行全膝关节置换术患者术中废弃滑膜组织,经I型胶原酶消化后进行原代