论文部分内容阅读
随着信息化时代的来临,纸质文档电子化已成为信息化建设的重要趋势。表格是一种信息量高度集中的文本形式,它可以将文本和图涵盖其中,具有规范、简明和易于处理等特点。图是对文字的生动化描述,可以将晦涩难懂的文字通过图的形式表达出来。在复杂版面文档图像中鲁棒并精确地进行表格与图的提取及分析,是纸质文档电子化的关键。本文对此进行了深入的研究,主要内容如下:1.从文档图像中表格与图的特点着手,对文档图像进行预处理。本文首先将黄氏模糊算法与OTSU算法结合,对文档图像进行二值化,通过实验结果证明该算法抗噪性能良好,且减少了表格线的断裂。此外针对倾斜的二值文档图像,本文采用基于Hough变换与形态学运算相结合的倾斜校正算法进行校正,并且用实验证明了该算法的有效性。2.表格的分析分为表格框线的提取、单元格的提取与表格重构三部分。第一部分,表格线的提取采用了基于形态学的算法,能准确地提取出表格框线,并定位出表格区域。第二部分,为了有效地提取单元格,本文首先对提取出的表格框线做了细化。通过对Hilditch、Rosenfeld、查索引表、并行细化算法结果作比较,最终采用了并行细化算法,并对其细化不彻底的缺点做了改进。然后,单元格的提取采用了基于表格特征点的算法,并采用Hough变换检测单元格内的斜线。第三部分,对单元格内的文字信息进行连通域扫描来定位,并将表格框线与斜线整合完成表格的重构。3.图的提取采用了基于轮廓跟踪的算法,该算法可以将去除表格的文档图像中的图提取出来。本文针对类似表格的图提出了一组规则进行区分,并对嵌套的复杂文档进行分类处理来完成其中表格与图的提取与分析。在由2038张图片组成的数据库中进行测试,表格与图提取及分析的准确率均在82%以上。