论文部分内容阅读
随着互联网技术的普及和多媒体技术的发展,在传统基于扫描文档的OCR技术广泛应用的同时,针对更具一般性的图像文本检测识别技术的需求正在不断凸显。图像中的文字包含着与图像内容密切相关的语义信息,准确地提取这些文本对于理解图像内容具有重要意义。在人工智能技术不断发展和广泛应用的今天,这项技术可以被应用到多个领域,例如多媒体内容的理解、分析与检索;场景理解与自动导航;文本提取与即时翻译;视觉辅助等。一般来说图像中文字主要包括两种形式:场景文字和叠加文字。场景文字指的是存在于自然场景中随着景物一起被拍摄下来的文本。这类文字形态具有较多的变化,文字的字体风格、大小、颜色、位置以及排列都比较随意,在拍摄的过程中容易受到光照等因素的影响从而造成图像退化。叠加文字则是指在视频和图像中,后期由人工添加的文字,如字幕、标题等。叠加文字的字体字形规范、颜色均匀一致且位置相对固定,但往往出现在相对较为复杂多变的背景当中。一个图像文字识别系统中,主要包含文字提取与文字识别两个组成部分。文字提取又可以被分成文字定位与分割,将定位候选区域中的文字像素从背景中精确分割出来能够大大降低识别难度。因此文字提取是后续识别步骤的基础,文字提取的精度对于整个图像文字识别系统的准确度起着关键的作用。图像中文字由于成像退化或者复杂的背景导致了较大的提取难度,但同时也吸引了较高的研究关注度。本论文的研究和讨论主要关注场景文字和叠加文字的定位分割,具体内容如下: 第一,从人类视觉注意机制的角度出发,对图像文字的视觉显著性进行了探索。文字区域通常具有底层视觉显著特性和高层视觉显著特性。从底层视觉显著性的角度出发观察发现,显著物体所在区域的像素相比于背景往往具有紧凑的颜色分布和纹理分布。基于这个观察,提取超像素的紧凑度特征和颜色特征,利用极限学习机在输入图像中学习并区分显著区域和背景区域从而实现显著目标的检测。 第二,提出了基于文字边界以及卷积神经网络的叠加文字检测算法。算法首先利用叠加文字相对于背景的强对比度,结合文字笔画结构的多方向性和分布紧凑性,提取文字边缘特征进行候选区域粗定位;然后利用卷积神经网络对候选区域进行进一步判别,得到相应的置信度图;最后对置信度图进行投影分析得到文本行的准确定位。 第三,针对场景文字检测中具有挑战性的问题之一-多方向文字检测,我们根据场景文字本身所具有的特点提出了基于显著闭合边界发现与方向学习的方法进行多方向文字检测。我们首先根据人类视觉特点和文字成像特点,检测图像中显著闭合区域作为候选文字区域。同时我们利用卷积神经网络的学习能力与表达能力,针对文字/非文字以及文字方向性进行学习。训练得到的卷积神经网络对候选区域进行检测并将输出作为特征。然后使用得到的卷积特征结合位置信息对所有候选字符区域进行聚合聚类,最后对聚类结果进行验证得到文本行。 第四,提出了一种将文字像素从复杂背景中分离的二值化方法。本算法首先根据选定区域中像素与边界区域像素的相似性与连通性计算该像素属于文本的置信度;然后使用颜色聚类算法将候选区域划分为不同的颜色层,并对边界连通区域进行判断从而去除边界背景区域;最后衡量不同颜色层与置信度图的相关性,选出最相似的颜色层作为分割结果。本方法结合了图像文字颜色均匀分布的特性与空间分布特性,能够有效地将文字像素从定位区域中分割出来。