论文部分内容阅读
自然场景图像是指人们通过相机、摄像机等器材在自然环境中拍摄的图像,自然场景图像中的文本定位即对这类图像中出现的路牌、车牌、布告板、提示牌、广告等载体上出现的文字进行检测和定位。该课题可应用于导盲、导航、智能交通、信息检索等领域,具有广阔的应用空间和重要的研究意义。如何快速、有效地从复杂图像中提取文本已成为受到关注的热点问题。在研究和对比已有算法的基础上,本文对场景图像文本定位的一些关键环节提出了新的思路和方法。在文本图像的分割方面,研究并改进了在图像分割方面具有良好的生物学依据的脉冲耦合神经网络,使其能够快速完成图像的三值分割,较好的适应了场景图像的复杂光照条件。实现了脉冲耦合神经网络中的多个参数基于图像自身的特征自动选取,避免了传统算法中人为设置参数,且分割效果对参数敏感的问题。在将字符连通分量连结构造为文本区域方面,提出了基于相似连通分量直线拟合的构造方法。将连通分量按照其中心位置映射为二维平面上的点,依据宽、高、位置等因素定义了连通分量间的相似度,并按相似度进行相似点集的划分。吸取随机抽样一致性的部分思想,在各相似点集中构造直线,从而实现文本行的分离。该算法对不同尺寸的文本适应度高,较好地解决了倾斜且相邻较近的两文本行中字符的文本行划分问题。在文本特征提取方面,研究了英文字符的笔画特性,描述了单侧边缘对二值字符的“擦除”作用,并在此基础上提出一项新的文本特征——“微小位移覆盖率”。该特征提取过程简单,在非文本块的过滤应用中取得了较好的效果。此外,对文本定位算法在移动终端上的应用做了探索,在Android操作系统上实现了基于MVC架构模式的文本定位应用程序的编写。