论文部分内容阅读
提出了一种从含有表格的文本图像的页面中提取文字的算法。该算法通过模板扫描形成包围图像前景像素的矩形框 ,从而提取出前景像素 ,进而组合矩形框形成模式链。利用模式的最大黑游程、长、宽三个统计特征实现对模式的分类。实验结果表明 ,该算法不仅对普通的表格有效 ,而且还可以从倾斜的表格及流程图中成功地提取出文字。本算法只适用于二值图像。