论文部分内容阅读
文字,是人类文明诞生的标志性发明之一,也是现代信息社会沟通协作的重要工具,它在我们的日常生活中无处不在。一方面,作为人类知识和消息的传播载体,大量文字存在于书籍、报刊等标准化媒介上,起到信息内容表达传播的主体作用;另一方面,还有一些文本信息嵌入于自然场景中,被称作场景文本(Scene Text),无论是在道路标志、店铺广告还是产品包装上,都存在着大量的场景文本,它们承载了精确且丰富的高阶语义信息,对我们正确理解自然场景内容起着不可或缺的辅助作用。然而,无论是在扫描文档中的标准化文字,还是在自然场景中的文字,大部分的文本信息都以数字图像的形式存在着,并不能直接被计算机识别和处理。因此,如何准确地将文本信息从数字图像载体中自动提取并识别出来一直是计算机视觉领域的重要研究问题。近年来,随着卷积神经网络技术的迅猛发展,计算机理解自然图像的能力越来越强,相关领域的研究热点也从受限场景下的扫描文档光学字符识别(Optical Character Recognition,OCR)转向了更为普适的场景文本识别(Scene Text Recognition,STR)。然而,与传统OCR问题相比,STR的研究面临着文本形状不规则、尺度与风格多变、复杂背景干扰、光照条件不良等多种阻碍因素,仍然十分具有挑战性。为此,本文提出了一种基于光流校正的端到端的场景文本检测与识别模型。针对自然场景中的不规则文本行图像,通常首先要对其进行文本校正(Text Rectification),然后再对校正后得到的图像或特征进行识别,文本校正质量的好坏就决定了后续文本识别子网络的性能如何。对于不规则文本的校正问题,之前方法主要采用基于TPS变换的STN子网络进行闭合求解,而我们提出首先利用文本行几何属性子模块(Text Line Geometry Module,TLG)预测得到文本行的几何属性,在此几何属性的先验约束下,再利用密集光流预测子模块(Dense Flow Field Module,DFF)生成校正光流场并采用双线性插值(Bilinear Sampling)进行密集空间变换以得到校正后的图像,该方法充分利用了文本行的几何对称属性,校正能力更为强大灵活,校正效果也更为准确可靠。实验结果表明,本文所提出的基于光流的文本识别网络在ICDAR15等多个弯曲文本数据集上均取得了约0.7%~1.3%的提升,同时在IIIT5K等普通数据集上也达到了世界先进水平,这证明了本文所提出的光流校正网络及几何先验约束的有效性。一直以来,场景文本检测与识别都被视作两个独立的子问题进行研究,然而二者其实是高度耦合并彼此互补的,识别任务受限于检测任务的精度,而检测任务又依赖于识别任务过滤困难样例。因此,近年来端到端的场景文本阅读系统越来越受到大家的关注。本文也致力于探索文本检测与识别任务如何更好地进行结合,进而提出了一种基于层叠多任务学习方式的端到端训练框架,它有效加快了模型训练的收敛速度,并降低了模型部署推理的计算量。实验结果表明,相较于独立训练方式,端到端系统的检测F指标提升了大约2%~3%,识别准确率提升了大约1%~2%,这得益于本文方法对检测与识别子任务的互补性的充分利用。