论文部分内容阅读
目的在将纸张文档数字化的过程中,解决中文文档版面信息的自动提取与恢复问题.方法通过搜索连通域,并根据连通域的尺寸特征,优先提取非文本区域,对提取出来的非文本区域,根据投影直方图、宽高比和黑白像素比等特征区分出表格、直线和图像;对文本区域采用改进的基于投影的纵横切割法来达到对文本正确分割的目的;利用XML文档文件格式描述、组织、恢复原有版面的数据和样式.通过重构生成保持原版面格式的通用电子文档.达到“原文重现”的目的.结果对大量的书籍样张和带表格、图像以及横竖混排等复杂样张的试验,结果表明改进的版面分析方法