论文部分内容阅读
21世纪是信息时代,而语言文字计算机化是信息化的主要内容之一。经过近20年的努力,中文信息化在中国经济建设和社会发展中发挥着越来越大的作用,已经产生出巨大的经济效益和社会效益。但到目前为止,我国和国际组织研究开发的中文底层软件都是基于字库方式的。
在对现存汉字字库方式进行简要述评的基础上,提出采用汉字部件按照一定规则来进行拼部组字的构想,本文详细讨论了智能造字的总体方案。
汉字的复杂性在于汉字结构复杂,汉字部件在汉字成字中的位置、形态和大小都发生变化。为了解决汉字造字问题,必须要解决造字工具问题。本文对文献[1]提出的网格方法进行了深入的研究和探讨。
汉字部件聚类的设计、利用部件进行网格拼组的设计,并简要介绍了汉字输入和自适应形变的设计。
分析汉字造字的核心是分析汉字部件,利用汉字结构和部件在汉字中的位置和大小对汉字部件进行聚类分析,聚类后的个别汉字部件类别达到200多种,通过对部件聚类的合并可行性进行分析,利用认识模式识别的理论,提出了利用人认知汉字的特点,对相似位置、相似大小的汉字部件进行类别合并,将这些类别合并到部件大小和位置适中的情况,合并后的汉字变形基本在人认知的范围,从而减少每种部件类别到100种以内。
为了实现计算机的智能造字,本文参考文献[2]在利用网格将汉字部件根据聚类的结果进行拼组作了一些探索,提出了利用结构和部件读音进行输入、对标准汉字部件进行自适应形变以生成符合要求的汉字部件、利用部件聚类结果进行网格拼组汉字。