论文部分内容阅读
文字是记录中华五千年文明的重要方式,研究古籍汉字对研究中华文明有着重要的意义。古籍汉字数量大、笔画多变、结构复杂、相似字多、区分困难,对古籍汉字进行适当的电子化并进行分类整理将会给古籍汉字研究带来很大的便利。本文针对古籍汉字图像本身的特点,通过提取图像组合特征,设计了一种基于BIRCH与改进的k中心点聚类算法的古籍汉字图像聚类方法。本文首先针对古籍纸张与印刷质量差异较大、汉字粘连、下划线较多等情况,对古籍汉字图像进行必要的预处理,以便于古籍汉字图像特征的提取;然后利用网格结构,提取古籍汉字图像四个方向的粗外围特征和横、竖、撇、捺四个方向的方向线素特征,用两种特征的组合来作为古籍汉字图像的聚类特征;通过对k中心点法进行改进,设计了一种基于BIRCH与改进的k中心点算法的古籍汉字图像聚类方法。通过实验证明了该古籍汉字图像聚类算法的有效性。