论文部分内容阅读
文档图像检索是图像检索的重要方面,在数字图书馆、办公自动化等方面具有广泛应用。文档图像检索的最终目标是从文档图像数据库中获得与输入图像或特征具有高相似度的一组图像序列。常见的文档图像检索算法可以归为基于文档字符内容的检索和基于图像特征的检索两大类。在基于特征的文档图像检索中,文档图像匹配技术是核心技术,它主要是从文档数据库中给出输入图像的最佳匹配。匹配技术是建立在特征定义及其提取基础之上的。本文在分析现有基于特征的文档图像检索方法优缺点的基础上,沿用基于图像特征的文档图像检索的基本思路,并借鉴基于内容的图像检索中基于图像子块的方法给出一种新的文档图像检索方法。首先对图像进行预处理,包括去噪处理和倾斜检测。去噪采用滤波模版简单有效,去噪后提取SIFT特征。作为倾斜检测第一步的二值化使用结合全局和局部的文档图像二值化方法,然后提取文档图像的边界线进行倾斜检测,并且引入的LMS自适应算法能使其具有更好的智能性。同时,在倾斜检测中提取的边界线特征可以作为文档的特征用于后续检索。之后再对整个文档图像定位有效区域,定义和提取有效区域的长度、宽度、密度特征;然后利用基于ISI学习算法的方法,通过对分割样例的学习,将有效区域分割成文字区域和非文字区域。对文字区域提取连通体对之间的距离(字间空白)、连通体高度、宽度等局部特征以及连通体的个数、空穴个数、平均空白、平均连通体高度、平均连通体宽度、段落特征等全局特征;对非文字区域提取关键块特征。这些特征中SHIF特征具有对伸缩、平移、扭曲的不变性,是一种对文档图像畸变具有高鲁棒性的特征。文字区域特征是较低层次的特征,能较好的区分文档图像。密度特征和关键块特征已经被证明具有良好的区分度。所以提取的特征既包含了全局特征也包含了局部特征,既包括高层次特征也包含低层次特征。因此,它们的组合能充分表征文档图像。将这些特征按照性质和特征向量维数分成三个组。然后本文引入已经证明对维数较高的数据仍然具有很好检索效果的A-Tree来组织这些数据,对三个组分别建立高维索引A-Tree。分别查询这三个A-Tree得到三个图像集合,取并集得到候选图像集合,然后根据候选图像的集合权值更新,给出最终结果。本文的方法对手写体文档图像、印刷体文档图像和两者混合的文档图像均适用。最后,在包含主要为文字的3900张文档图像的数据库Ⅰ和包含文字、图片、表格混合的2124张图像的数据库Ⅱ上分别进行实验测试了各特征的适用性。然后在总数据库上对基于综合特征的检索进行了测试,并与已有算法做了对比。实验表明:本文的方法具有普适性和较高的效率,具有较强的实用价值。