论文部分内容阅读
自然场景图像文本阅读是指从机器视觉角度智能定位和识别自然场景环境中文本内容,获取文字相关属性的一项技术。其在场景多语言实时翻译、机器自动化、阅读障碍辅助、图像内容理解、视觉信息检索、医疗辅助诊断、自动或辅助驾驶等诸多领域均拥有潜在的巨大经济价值,并且也极大地促进了人工智能与模式识别等潮流科研领域的发展。自然场景图像文本检测是一个非常具有挑战性的研究课题,它的主要难点在于自然图像场景比较复杂、类文本目标干扰多、图像模糊不清、文本几何外观变异较大、字体样式颜色信息丰富、字符排列布局不规则等。围绕自然场景图像文本检测问题,本文重点研究利用深度学习理论来精确高效地检测场景文本的算法或应用系统,克服了以往的基于启发式先验规则精心设计文本特征的历史算法缺陷。此外,针对复杂自然场景车牌文字应用问题,本文出了一种基于双注意力变换及共享对抗训练的实时鲁棒车牌识别网络模型。详细地讲,本论文的主要工作及贡献重点体现在以下几方面:1)就传统方法手工特征设计复杂且精确度低的问题,本论文出基于深度学习中全卷积神经网络的文本特征强化策略,自适应位置敏感池化,正例挖掘等技术。其中,文本特征强化策略改变现有全卷积神经网络中文本建议框生成阶段的单支路特征取,替换为利用双线性插值上下采样及依据文本纵横比定制卷积核的多支路特征取,进一步替换现有的串行残差学习为并行化残差学习的策略;针对尺度及纵横比变异较大的文本,利用文本特性的卷积核生成不同“位置敏感图”并池化,学习各池化结果的自适应权重,使检测定位结果更加精准;在正例挖掘策略中,多次在正样本周围采用不同尺度,纵横比及中心随机偏移采样,调整正负样本比例,升了文本检测精度。2)针对水平的、倾斜的、曲线的、波浪形的任意形状场景文本检测问题,出基于全向金字塔掩码生成适量有效文本建议框,不需要非极大值抑制(NMS)算法抑制冗余的候选文本建议框,解决“堆叠全向文本抑制”困境;融合新颖的金字塔纵横残差序列建模模块,扩大全卷积网络各特征层的感受野,融合更多上下文信息,取更好的文本特征;利用多次改进的形变卷积拟合任意场景文本形状,最后基于多粒度任意形状文本分类模块输出任意形状的场景文本精确检测结果。3)由于遭受自然环境中车牌外观、模糊、噪音、视野失真、不均匀光照等因素影响,精确地识别自然环境中车牌仍然是一个挑战性的任务。本文出了一个基于双注意力变换模块来矫正真实环境中车牌的严重视野失真,以利于后续识别。同时,为了让模型高效且有效地学习复杂环境及视野无关的鲁棒车牌特征,我们基于标准模板渲染的车牌先验知识而设计了一个共享式对抗训练网络(SATN)。所出的方法在AOLP-RP和CCPD数据集上大大超越了以往的最先进车牌识别算法。