论文部分内容阅读
近些年随着社交网络的发展,处理日益增长的各种视觉信息已经成为了一个无法避免的需求。在这些视觉信息中有很多是复杂场景下的图片,如招牌图片、商铺图片、交通标志等自然场景下的图片,也有试卷、报纸等印刷体的图片。复杂场景下的图片由于背景复杂、字体多样、语种未知、版面格式不统一、光照等因素影响,文本检测与识别的难度大大增加。但理解复杂场景中的文本信息对于人机交互、自动驾驶、增强现实等都有很多现实意义。本课题是对不同的文本检测与识别技术进行研究,分别是传统OCR的多阶段的文本检测与识别技术和端到端的文本检测与识别技术,然后针对两种各有优缺点的技术分别应用于两个不同的复杂场景,两个应用场景具体为多学科试卷图文混排的场景和自然场景中语种未知的场景。将传统OCR的多阶段的文本检测与识别技术应用于多学科试卷图文混排的复杂场景下,关键在于多粒度的版面分析。该系统是按照传统的OCR方法步骤来进行的,按照文本检测、文本分割、字符识别三个步骤依次进行。首先采用均值滤波和Hough变换来对图像进行预处理,然后使用Faster RCNN算法来进行粗粒度分类。接着使用Mask RCNN算法来进行小题的细粒度分类。最后只需要识别公式与中文两种字符,依照不同类型分别调用现有的识别API。本系统对于多学科试卷的复杂版面都有通用性,而且对于试卷中的题号、题型信息都进行了分析,后续可直接生成相应的试卷结构。试卷中印刷体中文的识别率为99%,达到了实用标准。将端到端的文本检测与识别应用于自然场景中语种未知的复杂场景下,关键在于多语种的文本。该系统是将文本检测、文本识别放入到一个统一的框架下处理,之后再进行语种的判定。该系统采用了FPN作为整个端到端系统的骨干,通过FPN构建检测器。采用locality-aware NMS来删除高度冗余的候选框,将筛选出的候选框用于估计空间转换层的参数,并利用空间变换器来标准化图像以进行缩放和旋转,之后便输入全卷积的识别模块来输出最终的识别结果。系统的文本检测的AP为52.67%,端到端的文本识别的N.E.D为0.3190,语种判定的AP为25.41%。