论文部分内容阅读
随着各种具有摄像功能的移动电子设备的普及,越来越多的信息以自然场景图像为载体而存在。图像中文本信息对于理解场景、认知场景图像具有相当重要的意义。自然场景图像中的文本识别可以分为三个步骤,文本定位、文本分割、字符识别。首先要在自然场景图像中找到文本区域的位置,其次将文本从图像背景中分离出来,最后对分离出的文本进行字符识别,从而达到文本识别的目标。自然场景图像中存在颜色多变、光照不均、背景复杂等问题,这些问题会使文本的分割过程存在很大的挑战。基于阈值的方法在自然场景文本分割中比较常见,但通常只利用灰度值信息进行二值化,没有考虑像素点的空间信息。本文针对这个问题,提出了基于超像素和最大类间方差算法的文本分割方法,通过超像素信息将像素的空间信息应用到图像二值化的过程中,然后使用tesseract方法对文本分割结果进行识别,以验证本文提出的文本分割方法的有效性。首先对自然场景图像使用SLIC(简单线性迭代聚类)算法生成超像素标记,对图像进行过分割。然后对同一幅图像进行灰度化、均衡化、去噪,使用OTSU(最大类间方差法)进行二值化。再结合过分割图像和二值化结果,得到最终的文本分割结果。关于字符识别步骤,针对自然场景文本,对tesseract引擎进行相应的训练,然后使用训练之后的tesseract引擎对文本分割结果进行识别,再通过设计的识别结果修正环节得到最终的识别结果。最后,通过比较本文的文本分割结果与其他方法得到的文本分割结果在tesseract方法下的识别率,来比较文本分割结果的优劣。本文采用ICDAR 2013自然场景图像的数据集对本文的文本分割方法进行检验,通过使用tesseract方法对分割结果进行识别来检验文本分割结果。实验证明本文提出的基于SLIC和OTSU的文本分割方法取得了较为理想的分割结果。