场景文本识别关键技术研究

来源 :哈尔滨理工大学 | 被引量 : 10次 | 上传用户:x28221181
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景图像中包含着丰富的文本信息,它们可以从很大程度上帮助人们去捕获和认知场景图像的内容及含义,因此场景图像中的文本对其所在图像的视觉信息获取具有极其重要的作用。如果使用计算机自动识别场景图像中包含的文本内容,并应用于盲人辅助导航、无人驾驶导航、安全保卫、危机预防及处理等领域,将给人们的工作生活带来极大便利。场景文本识别技术与传统的光学字符识别技术(Optical Character Recognition,OCR)有着显著差别,主要在于场景文本图像与传统扫描文档的不同。场景文本图像主要通过数码相机、摄像机等设备获得,图像中存在颜色不一致、亮度不均匀、背景复杂多变、噪声强烈等现象,文本可能发生变形、字迹模糊、残缺、笔划断裂等问题,这些干扰因素使得场景文本识别存在很大困难,面临诸多挑战。针对这些问题,本文拟对场景文本识别的几个关键技术展开研究,包括复杂背景下的文本提取技术;自然场景下的文本变形校正技术以及场景文本单字符识别技术。针对场景文本背景图像构成复杂、影响文本识别效果的问题,通过分析场景文本图像的特点,在识别前进行预处理,将文本图像从复杂背景中提取出来,在此基础上提出了一种基于归一化割的谱聚类文本提取方法。首先根.据文本图像特点建立相似性权值函数,然后根据场景文本颜色分布特性按照颜色直方图对色彩空间进行量化,得到数量有限、不同颜色的像素集合,并以量化的颜色等级为单位结合像素的纹理特征及分布特点来构造相似矩阵,最后在归一化割准则下利用谱聚类方法实现图像分割。该方法将经过量化的颜色集合作为图分割中的顶点以简化加权图模型,从而显著降低谱聚类的计算复杂性,提高了谱聚类方法在图像分割方面的应用能力。在ICDAR2009、2003竞赛测试集、以及大量其他文本图像上的实验表明,本文方法具有良好的文本提取性能。针对场景文本由于文本载体本身倾斜或获取过程中相机视角倾斜引起的倾斜变形和透视变形问题,提出了一种基于数学形态学的变形校正方法。使用形态学方法针对不同变形情况选取不同形态学因子提取特征点;然后通过聚类方法和最近邻方法根据特征点的聚类信息拟合文本基线,并使用随机采样一致性算法计算基线位置,获得变形参数;最后,通过投影变换完成文本图像的变形校正。实验结果表明,本文提出的方法能够对存在一定程度变形的场景文本进行校正,以提高文本识别系统的识别准确率,特别是对行数较少的场景文本的处理,与其他方法相比具有明显优势。针对场景文本字迹模糊、笔划断裂、噪声强烈等问题,本文提出了一种鲁棒性强的提取Gabor小波特征的改进方法。该方法首先在基本Gabor小波变换基础上进行滤波方向的选择分类,然后利用带有方向选择性的小波变换提取Gabor特征,并与直方图相结合得到用于识别的组合特征。通过一系列的对比实验,显示出利用本文方法提出的组合特征针对笔划模糊这样的低质量字符图像具有良好的分类能力。为寻求高性能的场景文本识别系统,本文提出了一种基于背景相关分析的文本识别方法。该方法针对场景中文本与其背景之间的相互联系,利用典型相关分析方法挖掘背景与文本之间的相关性,提取字符图像与背景图像之间的典型相关特征用作字符分类特征,在场景文本样本集上的测试取得令人满意的结果,实验数据显示使用典型相关特征显著提高了场景文本的识别性能,表明了该分类特征的有效性。该方法突破了传统识别方法仅考虑文本自身特征的局限性,充分利用了图像中文本的周边信息,对场景文本识别方法研究是一个新的突破。实验结果同时表明利用字符以外的背景信息辅助识别是一个值得继续研究的课题,它为实现高性能的场景文本识别系统提供了全新的研究思路。
其他文献
随着改革开放的进行和社会主义市场经济的发展,在人的价值的评价中一些深层次的矛盾与问题逐步浮现出来,对人的价值的评价不再是单一的模式,而是出现了发散的状态。对于价值
[摘 要] 本文首先对体育消费现状进行分析,根据体育需求的日益增长和体育消费市场的不断扩大的现状,为实现体育消费市场的健康发展,指出体育消费发展现状及存在问题和体育消费制约因素,有针对性地提出体育消费发展的相应对策。  [关键词] 体育消费 发展现状 市场 对策    随着经济的发展和人们物质文化生活水平的提高,体育消费成为人们所追求的消费时尚,从而刺激了体育消费市场的需求,拉动体育消费与体育产业
在嵌入式实时环境下,适合于不同应用需求的恢复策略是嵌入式实时数据库系统能够可靠、高效运行的关键。在分析嵌入式实时数据库系统的数据、事务的特征以及故障恢复需求特征
随着互联网的飞速发展,网络信息量剧增,给用户提出了如何有效利用网络资源的挑战。推荐系统作为一种信息过滤技术,逐渐发展成为解决网络信息过载问题的一个有利工具。在众多的推
髌骨在膝关节运动中起重要作用,而髌骨骨折是一种常见的骨折,大部分的髌骨骨折需通过手术来获得坚强的固定以便于膝关节的早期功能锻炼。但目前对髌骨骨折的治疗尚未形成统一
推动区域教研进步,集成区域教研强势,是促进教育均衡发展的突破口。区域教研具有无限张力,多措并举的区域教研大有可为。
原发性骨髓纤维化是血液科骨髓增殖性肿瘤的一种亚型,90%以上合并Jak-2V617F、CALR、MPL基因突变,此外,多种疾病均可继发骨髓纤维化。近年来,自身免疫疾病继发骨髓纤维化逐渐
泰国北部与云南西双版纳的傣族(傣仂)同属于南传佛教傣仂亚文化圈。至今,虽为国界所阻隔,但不同地域傣族(傣仂)拥有相同的说唱音乐形式,即"Khap lue"。"Khap Lue"在云南及东
在第一章中,首先简要介绍了曲面重建的的历史以及发展状况。随后,给出了关于第二,三章节的一些预备知识。在第二章中,主要研究了关于偏微分方程的曲面重建方法,给出了两种曲
自动入侵响应是一种有效的对付入侵的手段。本文介绍了成本分析理论,并将该理论应用于自动入侵响应中,设计了基于成本分析的自适应入侵响应系统,简述了该系统中各个功能模块,