论文部分内容阅读
纸质文档数字化有着广阔的应用前景。利用光学字符识别技术,可以直接从图像中提取我们所需要的数据,会极大方便信息的存储、处理和检索,也将会减轻人手工录入信息的负担。准确的文本行提取是顺利完成文本识别的重要前提保证。当前基于CNN+LSTM+CTC等深度学习模型不断提出,有效地解决了端到端不定长文本字符的识别问题,但对行提取的性能远未令人满意。所以本文主要将研究如何从原始图片更有效而准确的实现页面中文本行的提取。由于图片文档存在图片倾斜和背景复杂的问题,可能会含有大量噪声或者无效信息,将会影响最终的识别结果。故首先介绍了对复杂背景的文档进行倾斜矫正和图像去噪增强的预处理的方法。本文研究的重点是文档对象的检测与识别,准确的文档对象识别是顺利实现文本行提取的前提。本文提出了基于深度学习的目标检测和语义分割算法实现文本对象识别与检测的方法,有效解决了传统方法较难提取页面特征、方法通用性差的问题。同时针对文档对象检测的特点,本文在通用的算法上修改锚框机制、修改损失函数、修改感兴趣区域层映射和归一化方式,并采用多尺度特征融合等方法,使得算法在检测结果上有了进一步提高,该算法在ICDAR 2017页面文档对象评测集上将交并比指标为0.6和0.8上的平均精度均值从0.787和0.637提升到了0.865和0.752。根据文档对象检测的结果,在不同的文档区域做相应的处理以减少对整个文档造成的信息损失,如表格区域进行去线处理,印章区域分离颜色通道进行移除处理。同时针对纯文本页面和含有表格页面的文本分布的不同特点,本文分别设计了不同的文本行提取算法。其中纯文本页面的文本行提取本文采用了基于深度学习的自然场景文本检测算法CTPN和投影法相结合的方法提取文本行区域,有效解决了页面背景复杂下的文本行提取问题。本文通过设计针对页面特点的文本行提取算法,实现了较好的文本行提取。将上述工作后得到的文本行区域记录位置提取,送到识别引擎进行识别,就完整的构成了一整套文档识别系统。整个系统选择本地文档图像后,会依次进行文档的倾斜矫正、去噪、文档对象识别与检测、表格线去除、去印章等步骤,并将文本行区域提取传递给后端识别引擎。经过测试,系统在在图像去噪、文档对象检测、文本行提取上都取得了良好的效果,整个系统具有较好的实用价值。