论文部分内容阅读
图像和视频中的文本字符,是图像高层语义内容的一个重要来源,包含许多非常重要信息,如街道名称、商店名称、路标、交通标示等,这些信息对于图像和视频资料的自动注释、索引等方面有重要的参考作用。 随着数码相机、拍摄手机等设备的普及,文字识别技术逐渐进入视觉文本图像这一广阔的领域。手持数码相机拍摄带有字符内容的图像时,由于拍摄文档本身的倾斜、弯曲以及人为因素的影响,所拍摄的文本图像经常存在几何变形。这使OCR(Optical Character Recognition)系统无法识别图像中的字符。为解决这个问题,需要对这些文本图像进行必要的矫正。 根据文本图像变形原理的不同可分类为倾斜变形和透视变形。目前的研究主要集中于倾斜变形,透视变形的研究刚刚起步。变形矫正的研究思路集中于应用图像处理方法和统计学方法获取变形参数,然后根据计算机视觉中仿射变换对图像进行恢复,得到矫正后图像。 本文针对文本图像的倾斜变形和透视变形进行研究,处理步骤包括预处理、特征提取、参数估计、变形矫正四个步骤。在预处理过程中,本文采用大律法的二值化处理方法和图像归一化来提高系统对多尺度图像矫正的鲁棒性;在特征提取的步骤中,本文利用文本图像的特征结合数学形态学方法,针对不同的变形情况选取形态学因子,从而得到特征点图像;在参数估计中,先通过聚类方法和最近邻方法提取特征点的聚类信息,然后,采用线性回归拟合文本基线并使用RANSAC(Random Sample Consensus)算法等统计学方法计算基线位置,从而获取变形参数;最后,通过图像仿射变换投影变换完成文本图像的变形矫正。 本文提出的文本图像几何变形矫正法,既可以处理人工文本,也可以提取场景文本。有效地矫正图像的倾斜变形和透视变形,在智能人机接口和基于内容的图像检索服务领域中,都将具有广泛的应用前景。