论文部分内容阅读
对文本图像的灰度、形状和纹理等视觉特征进行了较为全面的分析,研究了版面中文本、表格、图形和图像在各种特征层面上的差异。针对中英文版面,结合投影法与连通域分析快速准确的分割图像,提取了能够表征区域信息的17维特征向量,然后使用基于正态决策树的多分类支持向量机将文本图像版面区域分为文本、表格、图形和图像四类。实验结果表明算法能够快速、准确地处理文本图像版面,具有较强的应用价值。