自然场景图像中的文字检测

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xiaolingzijiangsu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着低成本高性能移动、数码或可穿戴设备的成熟和普及,以及互联网和移动互联网技术的高速发展,越来越多的新型应用场景中需要利用图像中的文字信息,从而使得自然场景中的文字提取技术成为了近几年计算机视觉领域的热门研究课题。而文字检测技术作为文字提取技术中的一个核心前端模块,同样受到越来越多学者的关注。然而文字本身的高变化度(如各种各样的字体、大小等)加上自然场景中的不均匀光照,遮挡,模糊,透视变换等客观因素使得自然场景图像中的全自动文字检测问题变得极为困难。本文针对该问题的各个难点进行了深入的分析,提出了一套基于Color-enhanced CER和浅层神经网络的全自动文字检测系统,并在标准数据集上验证了算法的有效性。此外,在某些特定的应用场景中可以巧妙地利用用户的交互信息来简化文字检测问题的难度,这类问题被称为基于用户意图的文字检测问题。本文对该类问题也进行了深入的研究,并验证了图像的组件树结构对于解决基于用户意图的文字检测问题的有效性。所以,本文的主要工作可以被划分为自动的文字检测和基于用户意图的文字检测两个部分。自动的文字检测主要包含两个核心子问题,即候选文字连通区域提取和文字/非文字分类。针对第一个问题,本文首先从理论上分析了经典的极值区域方法作为候选文字连通区域的局限性。为了抑制这些局限性,本文对极值区域算法提出改进,并提出Color-enhanced CER算法来作为本文的候选文字连通区域提取算法。文字/非文字分类是文字检测问题的瓶颈问题,本文从理论上深入阐明了该问题的主要难点及其原因,并指出歧义性问题和不平衡分类问题是导致作为少数类的文字类泛化能力差的重要原因,而这也正是之前的文字检测算法召回率低的一个重要原因。为了解决这个问题,本文算法在特征层面,系统层面以及训练数据准备层面上都提出了相应的有效解决方法。在特征层面,本文没有像之前的方法一样采用人工设计的特征,而是直接利用神经网络从后续文字连通区域所对应的二值图的原始像素中学出有用的特征,该方法一方面可以避免人工特征提取过程中有用信息的损失,另一方面可以降低算法的计算复杂度。在系统层面,为了克服歧义性问题,本文先利用孤立候选文字连通区域的形状或者纹理信息尽可能滤除无歧义非文字连通区域,以此简化后面文本行生成算法的难度,再利用文本行信息消除孤立候选文字连通区域的歧义性问题。其中,为了简化孤立候选文字连通区域的文字/非文字分类问题,本文提出“分治”策略将原始问题空间根据文字本身的特有属性切分为五个子空间,每个子空间分别利用无歧义学习策略训练相应的浅层神经网络分类器进行文字/非文字分类。在训练数据准备层面,无歧义学习策略可以很好地抑制歧义性问题和不平衡分类问题导致文字类泛化能力差的问题,从而使得在准备分类器训练数据的时候可以尽可能多且安全地使用从字体库合成的样本作为训练正样本。使用合成数据,一方面可以降低数据标注的工作量,另一方面保证训练数据干净且分布均匀,有助于分类器的性能。另外,通过无歧义学习策略可以有效地采样出少量且重要的非文字样本训练集,从而可以解决数据集不平衡问题。由于无歧义学习策略对原始的歧义性问题进行了简化,所以在通过该策略得到的训练数据集上,浅层神经网络可以得到接近深度神经网络的结果,这样一来本文就可以直接选用浅层神经网络作为各个文字/非文字分类器,从而大幅降低算法的计算复杂度。本文提出的文字检测算法在标准数据集ICDAR-2011和ICDAR-2013测试集上都取得了很好的结果。针对基于用户意图的文字检测问题,本文提出可以利用图像的组件树结构来解决该问题,并验证了图像的组件树结构在解决基于用户意图的文字检测问题上的有效性。相比于传统的扫描线法,本文提出的基于组件树的算法大幅提升了检测的准确度。之后本文又对初始算法提出改进,设计了一套改进版的基于组件树的算法,进一步提升了算法的性能。
其他文献
本文得益于智能的思想,将常规控制与智能控制组结合,引入自适应神经元及惯性指标,推导出具有仿人智能的控制器。在液压同步系统中的应用表明,该控制器控制作用效果显著、调节简明
少年奥林匹克珠心算数学俱乐部,敞开大门、放低门槛,为所有小学在校的同学,提供直接、简便、实在、免费的竞赛平台,让小同学们实现参加奥林匹克竞赛的梦想,尝试在奥林匹克竞赛中成
本文收集了不同用钢的硬度与其力学性能的常用试验式,并进行了分析,为现场工况条件下,由硬度判定力学性能提供依据。
铃木久男先生是日本知名珠算史专家,也是世界级珠算史研究大师。早在上个世纪八、九十年代,他率团二十余次来中国访问考察,为探求中国珠算史的真谛,踏遍中国很多省市,详细缜
期刊
在珠心算教学中,儿童长时间与数字打交道,极易产生厌学情绪,但当儿童对珠心算产生兴趣时就会觉得乐在其中,使之对训练乐此不疲。在珠心算教学中,教师要尽量创造生动活泼、轻
程序分析是程序优化、程序安全缺陷检测以及恶意代码检测领域的重要技术手段。程序分析分为静态程序分析、动态程序分析以及混合程序分析三大类。动态符号执行是混合程序分析
2013年初青钢高炉槽下烧结返矿率达210 kg/t,铁水成本明显增加。为此,青钢炼铁公司从配矿结构、烧结矿碱度及熔剂质量、料层厚度、点火温度、烧结工艺、筛分系统等方面进行改
韶钢炼轧厂生产的 45号钢在常规生产检验中发现材料规格对力学性能初检合格率有影响 .为此 ,随机抽取16、18、2 8、3 0mm 4个规格、11个炉号的 45号钢进行正火工艺试验 ,探
结合实际工程,通过对污水池池壁裂缝的检测鉴定,从设计和施工两方面总结裂缝产生的主要原因,根据实际情况提出堵漏止水、封闭裂缝和结构补强的综合处理方案,既实现了止水防漏