论文部分内容阅读
现实生活中有大量的文档数据是以图像的形式存在的,如何将这些非结构化的图像数据进行结构化转换是对非结构化文档进行自动分析的初始步骤和关键技术。以此为目的,本论文采用基于改进的区域卷积神经网络(region-based convolutional neural network,R-CNN),即 Faster R-CNN 结构的深度学习网络模型并使用基于图像处理中投影计算的算法,对非结构化的文档图像进行了版面内容的自动分类与定位,并且对非结构化文档图像中的表格进行了识别、提取与转换,实现了对非结构化文档图像完成结构化转换的目的。本论文的主要内容包括非结构化文档图像的版面分析和文档图像中表格识别两部分。具体工作内容如下:在非结构化文档图像的版面分析部分,先对非结构化的文档进行半结构化图片的转换,再对转换了的图片进行投影计算,使用图像处理算法和模式识别方法对图片中的各版面组成部分进行分类和初步定位。对于图像处理后的结果不确定的情况,再采用Faster R-CNN的方法进行判断并得出结论,进而实现非结构化文档版面的结构化。这种方法在有效控制计算量的同时也降低了对深度学习所需要的数据集规模的要求,能够准确地对版面结构进行分类并精确定位非结构化文档中的表格部分。在非结构化文档的表格识别部分,着重对图像中出现的噪声影响严重、表格倾斜及有遮挡情况进行了处理,并对非结构化文档中提取出的表格进行类型细化,对全线表格、纯横线表格、色彩相间表格以及无线表格分别进行处理和算法设计,具体问题具体分析,使得表格结构识别的精度更高。最后对识别后表格中的每一个单元格进行切分,分别进行字符识别,完成Excel格式下表格内容的结构化复现。采用平均精度均值(Mean Average Precision,mAP)为指标,衡量了 Faster R-CNN网络对非结构化文档的分类及定位效果,并通过对表格识别算法的识别及转换率(识别并转换完成的表格数量与实验总样本数量的比值)的统计,对表格识别算法的效果进行的评估。本论文中所采取方法所得到的结果中mAP指数为71.3%,表格的识别转换率总体为81%。经过研究,本论文实现了对较常见非结构化文档版面内容的分类和定位功能;同时实现了将非结构化文档版面中表格部分的识别、提取以及复现为Excel格式表格的功能。测试结果表明,论文实现的方法能够比较准确地完成非结构化文档中文字、图片和表格的识别和定位功能;同时能够比较准确地将非结构化的表格复现为Excel格式的电子表格,为非结构化文档的进一步自动化处理奠定了良好的基础。