论文部分内容阅读
借助于计算机将大量规则的文档碎片重建修复,可以极大地提高工作效率,降低人工成本,因此该方面的工作受到学术界的普遍关注。目前,形状规则的英文碎片匹配主要面临3个方面的问题:1)碎片特征提取困难;2)拼接效率低;3)拼接精确度低。针对问题一,通过一系列数据统计处理,排除英文字母高低不一的干扰因素,提取每行字符的标准像素高度作为碎片的特征向量;针对问题二,通过建立优化模型,在保证每类碎片个数相同的前提下,使用蚁群算法进行横向快速聚类;针对问题三,通过对字符8邻域内的像素灰度值进行统计,建立两幅碎片的距离函