场景图像文本区域定位方法研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zhhaibin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景图像往往含有丰富的文本信息,能够为许多基于图像的应用提供重要的线索,比如场景感知、辅助导航以及车辆跟踪等。所以场景图像文本信息的提取具有重要价值。场景图像文本处理系统主要包括两个重要模块:文本区域定位以及文字识别。而文本区域定位作为文字识别的重要前提,其研究与探索具有十分重要的意义。目前,虽然关于文本区域定位技术的研究取得了一定进展,但是由于场景图像中背景信息的复杂性,以及存在各种外界因素的干扰,场景图像中文本区域的定位仍然存在巨大挑战。本文设计了一种新的场景图像文本区域定位方法,其主要研究内容如下:1.最大稳定极值区域与角点特征相结合的场景图像文本区域初步定位方法。最大稳定极值区域(MSER)特征对光照和视角变化具有较好的适应性,所以本文提出一种基于MSER特征的场景图像文本区域初步定位方法。首先,分析了MSER检测算法直接用于场景图像进行特征提取时所存在的问题,并针对问题提出了一种基于直方图均衡化技术和灰度形态学运算相结合的场景图像预处理方法,在预处理后的场景图像中提取MSER特征。然后,对提取的MSER特征进行连通域分析,并使用启发式规则对文本候选区域进行筛选。最后,根据场景图像文本区域中包含丰富角点信息这一特性,给出结合角点特征对候选区域进行进一步筛选的思想,完成初步定位。2.场景图像文本区域初步定位结果二次判别。鉴于初步定位结果中仍含有部分非文本区域,采用笔画宽度特征对初步定位结果进行二次判别。针对SWT算法特征提取时存在的不完整性问题,提出了一种基于图像颜色信息和文字边缘像素梯度信息相结合的改进方法。采用笔画宽度特征对初步定位结果进行判别,进一步去除非文本区域。3.文本行定位结果矫正。通过文本行构建算法将二次判别结果区域进行连接,得到文本行定位结果。但是对于发生旋转、仿射和投影变换的文本区域,其文本行定位结果存在文本框之间相互重叠、文本区域包含较多背景噪声以及文字存在变形等问题。采用低秩分解技术对存在上述问题的文本区域进行矫正,获得精确的场景图像文本区域定位结果。本文最后给出了部分定位实验和矫正实验的相关结果,并与其它算法进行了对比分析。实验结果表明本文算法对于复杂背景以及环境因素都具有较强的适应性,同时通过低秩分解技术完成了倾斜文本行的定位,实现了仿射、投影变换文本区域中变形文字的矫正,并且定位速度也有相对提高。
其他文献
ATM是Automatic Teller Machine的缩写,意为自动柜员机。用于实现各种金融交易的自助设备。诞生以来从初期的单纯取现功能不断扩展,目前可以提供的功能有纸币存取、硬币提取、
2020年春节的钟声即将敲响之际,一则不幸的消息被证实:新型冠状病毒在武汉扩散了.霎时间,人们开始惊恐,不知所措,冒着极大的风险,挤满了各大超市、药店,争先恐后地抢购各种生
期刊
现代制造业正朝着高精度和数字化的方向快速发展,对数控机床的加工精度不断提出更高的要求,影响数控机床加工精度的因素有很多种,但主要可归结为四大类:数控机床主要机械结构的几
本文首先介绍课题的研究背景,并阐述国内外关于数控机床建模和几何误差测量的研究现状,对机床几何误差确定性建模和不确定性建模技术进行了深入的分析研究。在此基础上,以一四轴
本文应用气相色谱技术,以早秋菊‘太平的小鼓’、‘金锋铃’和晚秋菊‘星光灿烂’、‘墨宝’4个菊花品种为试材,研究低温处理下叶片和根系中的膜脂脂肪酸组分与含量的变化。
在这个信息技术日新月异的时代,文盲的界限已经不仅仅局限于不识字的人群,那些不会应用现代化信息工具的人群也已经逐步过渡到了文盲的行列。在中学教育中,激发学生接触现代化信
学校在“融通教育”办学理念的引导下,融合多种课程形式,构建了“芙蓉花开 多元融通”的课程体系.毕业季课程作为其中的一个分支,在学生特殊的成长时期给予了他们前行的动力,
期刊
新课程背景下初中数学应用题取材更加广泛,背景更加贴近生活实际,而初中学生由于受到年龄的限制,往往缺乏生活经验,对应用题所涉及的背景知识不熟悉,这就需要教师在应用题教学中注
新课改,让课堂充满了激情与活力,让数学教学更精彩。然而,欣喜之余我们不得不静下心来反思我们的新课堂,由于对新课程理解不全面和急功近利等多方面的原因,一些课堂出现了"活"而不"实
切削稳定性是机床安全、刀具寿命、加工质量和生产效率的保障,它由机床结构动态特性(The dynamics of the machine tool structure)和切削过程动态特性(The dynamics of the cutt