自然场景中文本识别技术研究及实现

被引量 : 0次 | 上传用户:a281000075
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像中的文本信息是理解图像内容的重要线索,自然场景中存在着大量的文本信息,这些信息可以为场景理解提供极有价值的帮助。因而,研究一种自动化的文本信息识别工具,自动从自然场景图像中识别出文本内容,对场景图像的检索、分析以及场景理解均有重要意义。传统文档分析技术尽管已经取得了巨大的成果,但无法有效处理自然场景中的文本字符。自然场景中的文本图像与传统文档图像相比具有明显不同,表现在文本图像的颜色、亮度、对比度不一致;文本所在的背景复杂多变;文本图像存在变形、残缺、模糊、断裂现象;图像中可能包含强烈的噪声干扰,等等。这些因素使得自然场景文本识别技术面临诸多挑战。本文针对自然环境文本识别相关技术进行研究,重点研究自然场景下文本图像变形的矫正方法、复杂背景下文本图像的分割方法、低质量字符图像的识别方法。具体内容如下:1.自然场景的文本图像中存在大量透视变形的情况,文本图像发生变形会严重影响文本识别的整体性能。本文对场景图像的透视变形问题进行了研究,并针对自然场景图像中文本行数少,缺乏段落信息,文本边缘不完整的特点,提出了一种基于消失点的变形矫正方法。该方法分两个步骤:1)检测消失点:文本基线的交点就是消失点,对点的检测可以转化为参数空间对线的检测。首先利用数学形态学算子提取文本字符上的边缘端点,接着采用最近邻方法对端点按照文本行的位置进行分类,然后使用最小二乘法在筛选后的端点集合中拟合文本基线,最后通过RANSAC方法选择出一个最优的文本基线集合,在参数空间拟合出消失点对应的直线。2)变形恢复:文本图像的变形参数包含在单应矩阵中,利用消失点的位置信息对单应矩阵中的部分参数进行估计,然后使用单应矩阵对图像实现矫正恢复,获得正视图的文本图像。由于该方法是从文本图像的字符中获得变形参数,不受文本的边缘和段落格式限制,因此可以对场景文本进行处理。实验结果表明,使用本文方法对大量变形的场景文本图像进行矫正后,字符识别率明显提高。2.字符分割是字符识别前的关键步骤,自然场景下的字符区域常常有复杂的背景,这会给从背景中分割出字符图像造成困难,本文提出了一种基于谱聚类的字符图像分割方法。该方法与通常的谱方法最大的不同是利用颜色空间量化来构造相似矩阵,大大降低了求解特征系统时的复杂度。具体步骤是:1)构造相似矩阵:首先对图像进行HSV空间变换并量化该色彩空间,然后定义基于像素色彩信息、纹理信息、距离信息的相似度函数,并计算各像素之间的相似度,最后以色彩量化区间为元素构造图像的相似矩阵。2)求解特征系统:以相似矩阵对应的拉普拉斯矩阵为特征矩阵建立特征系统,求解该特征系统的最小特征值及其特征向量。3)图像分割:对最小特征值对应的特征向量进行两类划分,建立一个二值指示向量,按照该向量对相似矩阵进行分类,通过分类后的相似矩阵进一步实现原图像的二值分割。对大量场景文本图像进行测试,实验结果表明该方法优于传统的阈值分割方法,也优于基于谱图准则的阈值分割方法。3.自然场景中文本图像的特点决定了场景文本的质量低下,现有字符识别方法对字符图像的变形、高噪声、低分辨率等问题还不能有效处理。本文对低质量的字符识别问题进行了研究,提出了一种基于改进Gabor小波变换的特征提取方法,并在此基础上实现了一种高鲁棒的汉字识别方法。本文通过分析低质量汉字图像特点,利用Gabor函数良好的频率选择性和方向选择性,构造了一个适合于汉字特征提取的Gabor小波变换,并进一步提出了基于尺度重叠和基于方向预分类的改进小波变换。尺度重叠强化了Gabor滤波器对笔划宽度的选择,方向预分类使得滤波器对笔划方向的选择更有针对性。由于充分考虑了汉字笔划宽度和方向的多峰值分布,优化了小波变换参数,从而获得一种高鲁棒性的汉字特征。在HCL2000标准手写汉字库和低分辨率汉字库上的测试表明,该方法对笔划变形和低分辨率的汉字字符具有良好的适应性,能有效处理质量较差的汉字字符。最后,利用提出的多个方法,本文建立了一个自然场景文本信息识别系统,通过实验表明该系统在处理自然场景文本图像的有效性。由于本文建立的文本识别系统对输入图像的限制较少,可以认为是针对实际应用系统研究的一个有益探索。值得一提的是,基于颜色空间量化的谱聚类文本分割方法可以为其它图像分割问题提供思路;改进的Gabor小波特征也是对字符变换系数特征的一个补充。
其他文献
在侦查学的学科体系内,秘密侦查和技术侦查虽同属侦查措施的范围,但两者关系并无得到广泛认可的渊源。2013年1月1日生效的新《刑诉法》在第2编立案、侦查和提起公诉中第8节设
以铜川市印台区玉华镇土壤重金属背景值为标准,对比分析了玉华煤矿区土壤中Pb、Cd、Cu、Zn、Cr、Fe六种重金属的含量及累积情况,并采用单因子污染指数法、综合污染指数法和潜
<正> 美国逾130万拥有高清电视机的有线电视观众将能接收HDTV,即使他们尚无HD调谐器。Comcast通信公司已经开始向新泽西、宾夕法尼亚和特拉华州
融资租赁行业自上世纪二战后高速发展,现已成为重要的金融工具之一。在需求不断增长的背景下,融资租赁公司面临着较大的融资压力。本文分析了在我国现有法律框架下,融资租赁
利用锅炉尾部烟气余热加热回热系统中的凝结水,可排挤部分抽汽返回汽轮机内继续膨胀做功,在一定程度上提高机组效率,有利于电厂的节能降耗。在典型百万千瓦机组选定工况的基
优秀传统文化是一个民族的文化生命,形成一个民族的文化特质。大学生是国家的宝贵人才,其思想道德水平的高低直接关系着民族的复兴和国家未来的发展。在经济和文化全球化的大
医药行业涉及国民健康、社会稳定和经济发展等各方面。改革开放以来,我国己成为当今世界上发展最快的医药市场之一,近年来一直保持持续稳定快速的发展势头。随着国民经济的进
燃气管道由于腐蚀、老化、施工质量、第三方破坏等原因会引发泄漏事故,燃气管道泄漏将直接造成能源浪费、经济损失及严重的社会影响。因此在燃气管道的运行、应急管理过程中,需
目的探讨重症胆源性胰腺炎与重症高脂血症性胰腺炎的发病机制。方法回顾性分析2002年1月~2010年1月期间收治的51例重症胆源性胰腺炎(ABP)和13例重症高脂血症胰腺炎(HLAP)的临
基于视频的各种监控系统目前越来越多地被应用于智能交通、安全监控等领域,对视频监控系统的智能化研究方兴未艾。本文对实现视频监控系统智能化的若干核心技术,重点包括基于