基于深度学习的场景图像文本检测的研究与应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：huangom444

【摘要】

：

自然场景图像文本阅读是指从机器视觉角度智能定位和识别自然场景环境中文本内容,获取文字相关属性的一项技术。其在场景多语言实时翻译、机器自动化、阅读障碍辅助、图像内

【作者】

：

张胜

【出处】

：

华南理工大学

【发表日期】

：

2020年01期

【关键词】

：

场景文字检测深度学习视觉计算自适应位置敏感池化正例挖掘车牌识别双注意力变换生成对抗网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自然场景图像文本阅读是指从机器视觉角度智能定位和识别自然场景环境中文本内容,获取文字相关属性的一项技术。其在场景多语言实时翻译、机器自动化、阅读障碍辅助、图像内容理解、视觉信息检索、医疗辅助诊断、自动或辅助驾驶等诸多领域均拥有潜在的巨大经济价值,并且也极大地促进了人工智能与模式识别等潮流科研领域的发展。自然场景图像文本检测是一个非常具有挑战性的研究课题,它的主要难点在于自然图像场景比较复杂、类文本目标干扰多、图像模糊不清、文本几何外观变异较大、字体样式颜色信息丰富、字符排列布局不规则等。围绕自然场景图像文本检测问题,本文重点研究利用深度学习理论来精确高效地检测场景文本的算法或应用系统,克服了以往的基于启发式先验规则精心设计文本特征的历史算法缺陷。此外,针对复杂自然场景车牌文字应用问题,本文出了一种基于双注意力变换及共享对抗训练的实时鲁棒车牌识别网络模型。详细地讲,本论文的主要工作及贡献重点体现在以下几方面:1)就传统方法手工特征设计复杂且精确度低的问题,本论文出基于深度学习中全卷积神经网络的文本特征强化策略,自适应位置敏感池化,正例挖掘等技术。其中,文本特征强化策略改变现有全卷积神经网络中文本建议框生成阶段的单支路特征取,替换为利用双线性插值上下采样及依据文本纵横比定制卷积核的多支路特征取,进一步替换现有的串行残差学习为并行化残差学习的策略;针对尺度及纵横比变异较大的文本,利用文本特性的卷积核生成不同“位置敏感图”并池化,学习各池化结果的自适应权重,使检测定位结果更加精准;在正例挖掘策略中,多次在正样本周围采用不同尺度,纵横比及中心随机偏移采样,调整正负样本比例,升了文本检测精度。2)针对水平的、倾斜的、曲线的、波浪形的任意形状场景文本检测问题,出基于全向金字塔掩码生成适量有效文本建议框,不需要非极大值抑制(NMS)算法抑制冗余的候选文本建议框,解决“堆叠全向文本抑制”困境;融合新颖的金字塔纵横残差序列建模模块,扩大全卷积网络各特征层的感受野,融合更多上下文信息,取更好的文本特征;利用多次改进的形变卷积拟合任意场景文本形状,最后基于多粒度任意形状文本分类模块输出任意形状的场景文本精确检测结果。3)由于遭受自然环境中车牌外观、模糊、噪音、视野失真、不均匀光照等因素影响,精确地识别自然环境中车牌仍然是一个挑战性的任务。本文出了一个基于双注意力变换模块来矫正真实环境中车牌的严重视野失真,以利于后续识别。同时,为了让模型高效且有效地学习复杂环境及视野无关的鲁棒车牌特征,我们基于标准模板渲染的车牌先验知识而设计了一个共享式对抗训练网络(SATN)。所出的方法在AOLP-RP和CCPD数据集上大大超越了以往的最先进车牌识别算法。

其他文献

连续性内部资料性出版物规制研究

连续性内部资料性出版物规制是我国特有的出版规制。它在降低交易成本、抑制机会主义、保护受众利益等方面发挥了积极作用。连续性内部资料性出版物规制是报刊出版规制与组织

学位

非正式出版物连续性出版物出版规制江苏省

凸极同步电动机的整步

期刊

凸极同步电动机整步三相半控励磁装置

密封圈扮演节能高手——泵使用全氟弹性体密封圈能显著降低系统总成本

高居不下的能源价格加之激烈的市场竞争，使得化工企业必须加强成本控制并提高系统效率。而泵产品作为化工企业最通用的设备，它的节能是节约成本的有效途径。本文介绍了通过选择

期刊

密封圈总成本全氟弹性体系统节能泵化工企业市场竞争

发电机的停机操作程序

期刊

发电机停机操作程序有功负荷无功负荷

西部大开发，促进民营经济发展是关键

东部发展经济的经验对西部大开发的借鉴作用是毋庸置疑的.东部成功的经验在于大力培育和发展了民营经济,而西部地区民营经济发展的滞后则对西部地区经济的发展产生了相当不利

期刊

民营经济发展西部大开发东部经验关键

moksha8与罗氏和辉瑞结成战略联盟提供多种产品组合

moksha8，Inc于2008年4月16日宣布与罗氏制药公司和辉瑞公司达成战略合作关系，推出20多种产品并在巴西圣保罗设立其拉美总部。moksha8致力于为全球发展最迅速的市场提供最优质的

期刊

产品组合联盟合作关系辉瑞公司制药公司全球发展INC市场

安装铁塔采用的内拉线抱杆底部承托装置的改进

期刊

输电线路铁塔安装内拉线抱杆底部承托装置技术改进

符号学视角下的青春题材电影研究

改革开放以来,伴随着文化产业特别是电影产业的成熟,内地青春电影持续发酵,青春电影已经成为消费时代的人们缅怀青春、追忆最初梦想的精神寄托。本文运用电影叙事学、符号学

期刊

青春电影电影叙事学符号学

生物可吸收PLLA血管内支架对内膜修复和血管重构的影响及其机理研究

经皮冠状动脉介入治疗是心血管疾病治疗的重要手段,生物可吸收支架可短期支撑血管,有效防止支架植入后血管急性闭塞和降低再狭窄发生率。生物可吸收支架植入后逐渐被血管吸收

学位

生物可吸收聚合物支架内膜功能血管修复表型转化乳酸

现场检测阀门定位器——Fluke787：根据标准对阀门定位器进行定期现场检验的理想仪表

电子阀门需要定期的现场检测，这是预防性维护过程的一部分。机械的长期工作将导致迟滞增加，暴露于腐蚀介质的部分和控制电路中电子元件的漂移都会影响阀门的正常工作。Fluke787

期刊

阀门定位器现场检验现场检测仪表理想标准电子元件维护过程

基于深度学习的场景图像文本检测的研究与应用

与本文相关的学术论文