基于深度学习的场景图像文本检测的研究与应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:huangom444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景图像文本阅读是指从机器视觉角度智能定位和识别自然场景环境中文本内容,获取文字相关属性的一项技术。其在场景多语言实时翻译、机器自动化、阅读障碍辅助、图像内容理解、视觉信息检索、医疗辅助诊断、自动或辅助驾驶等诸多领域均拥有潜在的巨大经济价值,并且也极大地促进了人工智能与模式识别等潮流科研领域的发展。自然场景图像文本检测是一个非常具有挑战性的研究课题,它的主要难点在于自然图像场景比较复杂、类文本目标干扰多、图像模糊不清、文本几何外观变异较大、字体样式颜色信息丰富、字符排列布局不规则等。围绕自然场景图像文本检测问题,本文重点研究利用深度学习理论来精确高效地检测场景文本的算法或应用系统,克服了以往的基于启发式先验规则精心设计文本特征的历史算法缺陷。此外,针对复杂自然场景车牌文字应用问题,本文出了一种基于双注意力变换及共享对抗训练的实时鲁棒车牌识别网络模型。详细地讲,本论文的主要工作及贡献重点体现在以下几方面:1)就传统方法手工特征设计复杂且精确度低的问题,本论文出基于深度学习中全卷积神经网络的文本特征强化策略,自适应位置敏感池化,正例挖掘等技术。其中,文本特征强化策略改变现有全卷积神经网络中文本建议框生成阶段的单支路特征取,替换为利用双线性插值上下采样及依据文本纵横比定制卷积核的多支路特征取,进一步替换现有的串行残差学习为并行化残差学习的策略;针对尺度及纵横比变异较大的文本,利用文本特性的卷积核生成不同“位置敏感图”并池化,学习各池化结果的自适应权重,使检测定位结果更加精准;在正例挖掘策略中,多次在正样本周围采用不同尺度,纵横比及中心随机偏移采样,调整正负样本比例,升了文本检测精度。2)针对水平的、倾斜的、曲线的、波浪形的任意形状场景文本检测问题,出基于全向金字塔掩码生成适量有效文本建议框,不需要非极大值抑制(NMS)算法抑制冗余的候选文本建议框,解决“堆叠全向文本抑制”困境;融合新颖的金字塔纵横残差序列建模模块,扩大全卷积网络各特征层的感受野,融合更多上下文信息,取更好的文本特征;利用多次改进的形变卷积拟合任意场景文本形状,最后基于多粒度任意形状文本分类模块输出任意形状的场景文本精确检测结果。3)由于遭受自然环境中车牌外观、模糊、噪音、视野失真、不均匀光照等因素影响,精确地识别自然环境中车牌仍然是一个挑战性的任务。本文出了一个基于双注意力变换模块来矫正真实环境中车牌的严重视野失真,以利于后续识别。同时,为了让模型高效且有效地学习复杂环境及视野无关的鲁棒车牌特征,我们基于标准模板渲染的车牌先验知识而设计了一个共享式对抗训练网络(SATN)。所出的方法在AOLP-RP和CCPD数据集上大大超越了以往的最先进车牌识别算法。
其他文献
连续性内部资料性出版物规制是我国特有的出版规制。它在降低交易成本、抑制机会主义、保护受众利益等方面发挥了积极作用。连续性内部资料性出版物规制是报刊出版规制与组织
高居不下的能源价格加之激烈的市场竞争,使得化工企业必须加强成本控制并提高系统效率。而泵产品作为化工企业最通用的设备,它的节能是节约成本的有效途径。本文介绍了通过选择
东部发展经济的经验对西部大开发的借鉴作用是毋庸置疑的.东部成功的经验在于大力培育和发展了民营经济,而西部地区民营经济发展的滞后则对西部地区经济的发展产生了相当不利
moksha8,Inc于2008年4月16日宣布与罗氏制药公司和辉瑞公司达成战略合作关系,推出20多种产品并在巴西圣保罗设立其拉美总部。moksha8致力于为全球发展最迅速的市场提供最优质的
改革开放以来,伴随着文化产业特别是电影产业的成熟,内地青春电影持续发酵,青春电影已经成为消费时代的人们缅怀青春、追忆最初梦想的精神寄托。本文运用电影叙事学、符号学
经皮冠状动脉介入治疗是心血管疾病治疗的重要手段,生物可吸收支架可短期支撑血管,有效防止支架植入后血管急性闭塞和降低再狭窄发生率。生物可吸收支架植入后逐渐被血管吸收
电子阀门需要定期的现场检测,这是预防性维护过程的一部分。机械的长期工作将导致迟滞增加,暴露于腐蚀介质的部分和控制电路中电子元件的漂移都会影响阀门的正常工作。Fluke787