论文部分内容阅读
版面分析目前已成为提高汉字识别系统效率的关键技术之一。针对中文版面较为复杂的特点,本文提出一种非文本区域优先的版面分析方法。该方法提取文档图像中所有连通域,根据连通域的大小进行聚类,从而可以得到文字连通域和非文字连通域,以达到分割版面的目的。实验结果表明,这种方法能够对比较规范的中文版面进行分析,具有较高的效率和较好的适应性。