论文部分内容阅读
摘要:自然场景图像中的文本信息为许多基于图像的应用提供了重要线索,其中,盲人视觉辅助系统是重要应用之一。该系统首先通过图像采集设备获取周围环境信息,然后使用文本定位技术提取图像中的文本,并通过字符识别技术识别文本,最后以语音信号形式反馈识别结果。系统将周围环境信息从文本转换为语音信号的形式,从而达到视觉辅助的目的。盲人视觉辅助系统运用了大量计算机技术,其中,自然场景图像文本检测技术显得尤为重要。精确定位文本,是提高字符识别率,输出正确环境描述的关键,对于辅助弱势人群和盲人正常生活具有重要意义。然而,场景图像背景复杂,图像中的文本变化多样,因此,场景文本检测是一个重要且具有挑战性的课题。本文提出了一种基于色彩聚类的自然场景文本检测算法,主要由以下四个部分组成:(1)色彩聚类。同一自然场景图像中的文本色彩相近,利用这种特性可定位文本。分别提取图像在R、G、B三个通道上的色彩分量作为特征,用K-均值算法将图像上的像素点聚类形成5个色彩层。(2)字符验证。色彩聚类结果包含了文本和大量离散的非文本连通域。为了减小字符合并时的计算量,移除离散的背景信息,分别采用字符几何和结构分析方法,验证候选字符。(3)字符合并。为了将分散的文本字符连接形成连通的文本区域,本文提出基于几何特性和空间位置关系的字符合并算法。(4)文本块验证。字符合并形成的候选文本块,包括真实文本块和错误检测的非文本块,为了提高文本检测的正确率,需要对候选文本块进行验证。本文分别采用几何性质分析和边缘密度判断的方法对候选文本块进行验证。将本文算法在公共数据库ICDAR2003上进行试验,结果表明本文算法能检测出不同场景图像的文本。对本文方法和其他已有场景文本检测方法进行定量比较,结果表明了本文算法的优越性。图46幅,表1个,参考文献55篇。