论文部分内容阅读
随着电子信息化进程的加快和互联网的快速发展,图像资源正海量的增长。越来越多的文档以图像的形式进行存储。文档图像中除了纯文本文档图像和纯表格文档图像外还有很多在文本中包含表格或图像的文档。如何对这些非纯文本内容的文档图像进行检索值得进行深入的研究。针对纯文本文档的检索技术主要提取与文本或字符有关的特征,这些特征对于文本中有表格或图像的文档图像则不适用。针对表格提取的特征同样不适用于文档中的文本部分。对于文本占主体同时包含表格或图像的文档图像,充分利用文本部分和非文本部分的特征,并且把两部分的特征很好的结合起来才能有效的表达图像。本文提出综合文档版面分析、全局特征以及局部特征的方法对文本图像进行特征提取和检索。在特征提取前首先对文档图像进行预处理。由于种种原因,文档以图像存储时可能会产生噪声或发生倾斜,这些干扰将影响到文档图像的特征提取,因此对文档图像进行预处理很有必要。本文通过对文档图像预处理的研究,对文档图像进行二值化、去噪、倾斜校正操作,使得文档图像便于特征提取。在特征提取时,分析文档的版面特征,把文档分为纯文本文档、包含表格的文档和包含图像的文档。针对纯文本文档和非纯文本文档中的文本部分,提取全局段落特征和局部像素特征;针对非纯文本文档中的表格部分,提取其相对空间位置特征和表格单元格框架特征;针对图像部分提取其空间位置特征和投影直方图特征。然后将所提取到的特征相结合作为文档图像的综合特征,以此作为对文档图像检索的依据。检索前,把图像库中文档图像的特征按文档类型的不同存到相应的特征库中。在检索时,根据文档的类型,把提取的文档图像特征与特征库中相应类型的特征进行匹配,根据特征向量之间距离的大小检索出最相似的图像。实验时分别对纯文本文档、包含表格的文档和包含图像的文档三种类型的文档进行检索,通过与针对文本文档的检索方法和针对表格文档的检索方法进行对比,实验结果表明:通过对文档进行版面分析并把文档分成不同的类型,然后针对每一种类型分别提取全局和局部特征,最后对提取的特征进行综合的方法对非纯文本文档的检索有较高的正确率。