论文部分内容阅读
文档图像检索是图像检索的一个重要分支,它在电子档案管理、数字图书馆、办公自动化等方面应用广泛。文档图像检索的目标是从文档图像数据库中找到满足要求的一幅或多幅图像。常见的文档图像检索算法可以分为基于版面重建的文档图像检索和基于图像特征的检索两大类。在基于特征的文档图像检索中,对于文档图像这类特殊图像很难以颜色和纹理视觉特征来表示文档图像,同时也很难以从整体上提取的特征来表示文档图像的内容,所以基于特征的文档图像检索的关键技术之一是如何提取特征,如何计算特征的相似度。本文分析了现有基于特征的文档图像检索方法的优缺点,在此基础上,沿用基于特征的文档图像检索的基本思路,将文档图像的全局特征和局部特征相结合,给出了一种新的文档图像检索方法。首先对图像进行预处理,包括去噪、二值化和倾斜检测等。本文采用中值滤波方法去除椒盐噪声,使用一种简单的快速扫描方法去除黑边噪声;使用Bernsen算法对图像进行二值化处理,然后采用一种快速倾斜角度检测算法检测文档图像倾斜度,再利用快速旋转算法旋转校正图像。之后再对整个文档图像定义和提取有效区域的宽和高、分层密度特征、Sift特征。然后利用最大梯度差方法将文档图像分割成文字区域和非文字区域。对文字区域提取连通体对之间的距离(字间空白)、连通体高度、宽度等局部特征,连通体的个数、空穴个数、平均空白、平均连通体高度、平均连通体宽度和段落结构特征等全局特征。对非文字区域借鉴方块编码的思想提取关键块特征。其中分层密度特征同时包含文档图像的全局特征和局部特征,具有良好的区分度;Sift特征是文档图像的局部特征,它对旋转、尺度缩放、扭曲变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性,是一种对文档图像具有高鲁棒性的特征。文字区域特征是较低层次的特征,能较好的区分文档图像。非文字区域的关键块特征也已经被证明具有良好的区分度。提取的特征既包含了全局特征也包含了局部特征,既包括高层次特征也包含低层次特征。因此,它们的组合能充分表征文档图像。将这些特征按照性质和特征向量长度分成三个组。然后本文引入已经证明查询效率不会随维数增加而降低的聚类金字塔树来组织这些数据,对三个组分别建立高维索引聚类金字塔树。通过分别查询这三个聚类金字塔树得到三个图像集合,取并集从而得到候选图像集合,然后引入一种移动查询点的相关反馈算法提高检索准确度。本文的方法对手写体文档图像,印刷体文档图像和两者混合的文档图像均适用。最后,在包含4300张文档图像的数据库上对基于综合特征的检索进行了测试。实验表明:本文的方法具有普适性和较大的检索速度和较高的查全率和查准率,具有较强的实用价值。