自然场景中文字检测与识别方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:galadelong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的迅猛发展及可拍照智能终端的广泛普及,自动理解用户拍摄的图像或视频中的高层语义信息具有巨大的应用前景,而图像中的文字直接携带了语义信息,因此数字图像中的文字自动检测与识别技术得到了国内外研究者的广泛关注。现阶段针对扫描文档的文字识别技术已经日趋成熟;然而,由于自然场景中的文字的位置、尺寸、字体、光照、视角、形变的多变性以及背景的复杂性,自然场景中的文字检测及识别仍存在诸多需要攻克的技术难点。  针对场景文字的类内多变性及背景的不确定性,以及场景文字识别问题本身的复杂性和交叉性,本文借鉴图像处理、目标检测、模式分类、机器学习等领域的最新进展,对场景文字识别所涉及到的文本检测、抽取以及识别等子问题分别展开了一系列的研究,并且在对以上子问题研究的基础上提出了集检测与识别为一体的场景文字识别方法。本文的主要工作和贡献包括以下内容:  1.由于自然场景中文字、背景的多变性以及训练样本的有限性,导致一种信息或者一个分类器不能很好地区分文字/非文字区域。针对以上问题,本文提出了基于图模型的场景文字检测方法,在图模型的框架下结合上下文融入多种信息来提高文字检测的性能。本文首先提出一种基于图模型的背景抑制方法,该方法把像素点视为图的节点,将区域分类器结果、颜色和梯度信息融合到图模型的损失函数中,通过最小化损失函数得到最优的背景抑制效果。实验结果证明此方法优于其他的预处理方法。为了更加充分地利用上下文信息,本文提出了建立在极大稳定性极值区域上的图模型的场景文字检测方法,把极大稳定性区域视为图模型的节点,融合多种信息到一个框架中,进而使各种信息相互补充。该方法对尺度不敏感,同时由于考虑了上下文信息,自适应性较强。实验结果表明本方法取得了较好的文字/非文字极值区域分类效果和整体的文字检测性能。  2.针对适用于扫描文档的二值化方法在背景复杂的文本块图像上会失效的问题,本文提出了基于图割的自适应复杂背景文本图像抽取方法。针对复杂背景文本块图像背景不均匀带来的噪声,本文提出了先分后合的方法,将文本块图像粗分为若干子图,然后在各个子图上分别处理;针对文字特有的笔画信息,本文设计算法自动为图割提供置信度较高的前景及背景点作为硬约束,结合软约束利用图割算法将硬约束扩展到整个子图,以实现文字笔画与背景分割的目的。在视频文本图像上的实验结果验证了本方法对于分割复杂背景文本块图像的有效性。  3.为了利用文字特有的结构信息,本文提出了两种融入结构信息的场景单字识别方法。为了对文字实现基于结构的表述,本文首先提出了基于多尺度图匹配核的场景文字识别方法,该方法将文字表示为基于多尺度网格划分下的无向图,通过图匹配计算两幅图像之间的相似度,而在图匹配过程中利用了文字的结构不变性约束,因此可以应对具有一定形变的场景文字。实验结果验证了本方法的有效性。为了更加直接充分地利用字符特有的结构信息,本文提出了基于结构指导的场景单字识别方法,将每类字符表示为一个基于部件的结构,为每类字符训练一个用于检测该字符特有结构的树结构模型,实验结果表明了该模型在字符检测及识别方面的优越性。在基于结构指导的单字识别方法的基础上,本文提出了基于条件随机场和基于最大化后验概率的场景文本识别方法,两种方法均将字符检测结果及语言模型等信息融合到一个框架中,在国际场景文本识别数据集上的实验结果表明,本文的方法取得了世界领先的场景文本识别性能。  4.针对现有的大部分场景文字识别系统将文字检测与文字识别相互分离,从而导致信息损失的问题,本文提出了集检测与识别为一体的场景文字识别方法,从而使文字检测与识别能够相互促进、相辅相成。该方法在单字识别与单词识别上均利用了基于树结构的模型。对于字符的检测和识别,为每类字符建立其特有的基于部件的字符树结构模型,将字符检测与字符识别无缝连接。字符树结构模型在为单词识别提供字符检测识别结果的同时,也为文本检测提供了单字识别信息的反馈,从而提高检测性能。对于单词识别,本文在标准图结构模型上增加了归一化项,以应对标准的图结构模型对不同长度的单词的得分偏差。实验结果表明本文的集检测与识别为一体的场景文字识别系统不仅在文字检测、文字识别子任务上取得了较好的结果,其整体的识别性能也大幅度领先于其他已经发表的结果。  总的来说,本文在场景文本检测、抽取及识别上均取得了较大的研究进展,并且为集检测与识别为一体的场景文字识别系统提出了建设性的解决方案。本文的工作对推动场景文字检测及识别的性能提升及走向实用化做出了有意义的探索和尝试。
其他文献
车辆检测技术是交通视频监控系统中的一项关键技术。随着城市化进程的不断加速,城市规模不断扩大,汽车的保有量迅速上升,日益繁忙的城市交通系统产生了交通安全、交通拥堵和环境
论文在分析图象处理、模式识别的基础上,设计并实现了一个新型的指纹自动识别系统.对于指纹的自动摄入、识别等技术都进行了深入的讨论,同时通过实践证明这种方法不仅具有较
面向仪器作为传统自动测试系统(Automatic Test System,ATS)测试环境的重要开发特性,导致测试系统具有较差的通用性,具体表现在测试仪器不可互换、测试程序集(Test Program S
近代医学影像技术的提出使得医生可以在无创伤的情况下观察病人体内的变化。作为出于临床诊断的需求提出的技术,从诞生开始,医学影像技术的核心任务之一就是对医学图像的显示。
植物在外界环境作用下会做出不同的反应,即可塑性。植物的可塑性表现在能够改变自身的结构和功能,以适应环境的变化。此外,农学上开展了作物“理想株型”的研究,以株型改良为目标
印制电子技术作为一个多学科高度交叉的新兴前沿研究热点,正受到愈来愈多人的广泛关注和青睐。当前印制电子技术广阔的应用前景已经凸显。而在不久的将来,随着技术的进一步成熟
控制领域中的一大难点就是测量与产品质量非常相关的但是难以直接测量的参数。这个问题未能得到有效解决的原因可能是出于对经济成本的考虑,也可能是传统的技术无法实现直接
该文是在国家自然科学基金项目:"电梯交通系统的智能控制及最优配置研究"支持下进行的研究.电梯系统的智能群控所要解决的是一个复杂的、具有非线性、不确定性目标随机系统的
单模态情感识别由于受到单一模态情感特征的限制,识别率并没有得到较大的提高。近年来,多模态情感识别突破了这一限制,在情感识别过程中,引入了多种模态的情感特征进行融合,
该文的工作是对人工神经网络理论、软件实现方法和应技术进行深入研究,在此基础 上以VB和MATLAB相结合作为开发工具,构建一个适合于国内高校环境的神经网络CAI课件NNDA V2.0