论文部分内容阅读
自然场景中的文本检测与识别,比如路边或者建筑上的指示牌、交通标志、商品名称等关键文本的检测与识别是计算机视觉、机器人、盲人阅读等领域的重要组成部分。随着该领域的迅速发展,如何从场景图片中高效地获取文本信息成为近年来研究的热点之一。自然场景下的文本检测与识别包括字符区域检测、文本行检测和文本识别三个主要步骤。本文在研究和总结国内外优秀算法策略的基础上,根据自然场景下文本的特点,对以上三个部分进行了深入的研究,其主要内容如下:(1)针对不同的应用场景,设计了两种字符区域检测方法。首先,由于在图像模糊、光照不均匀、弱光照等情况下,文本的边缘部分会产生严重的畸变,导致字符区域检测算法难以取得理想的效果。为了解决这个问题,本文利用物体颜色分布的空间局部性,设计一种多级二值化候选字符区域检测方法,在综合图像的三个通道的基础上使用多级二值化与两趟连通域标记算法实现候选字符区域检测。其次,考虑到大部分自然场景下,文本相对于背景具有清晰的轮廓,.为了提高在这些场景下的文本检测速度,设计了一种基于图像分层的候选字符区域定位方法,该方法将图像看成由一系列组件堆叠而成的树模型,利用组件检测的方法检测候选字符区域,并且根据字符在整个图像树中的分布特点,去除部分非字符区域,有效地提高了检测的速度。(2)为了整合字符区域中可能包含的文本行并且考虑到自然场景中的文本行可能以任意排列方向呈现,设计了一种基于图模型的文本行检测方法。该方法首先根据字符区域的空间分布信息和几何信息构建图模型,然后使用基于图的搜索策略进行检测候选文本行,最后为了去除非文本行,提取候选文本行中各个区域的联合特征和根据倾斜方向自适应调整的整体特征,使用Adaboost分类器进行分类,结果表明该方法对任意方向文本行都具有很好的检测效果。(3)针对文本识别,使用Tesseract OCR与Google拼写校对相结合的识别方法。由于自然场景中文本的复杂性,导致Tesseract OCR难以取得理想的效果,为了解决这个问题,首先,在使用Tesseract OCR识别前,结合文本区域的前景分布和边框颜色分布去除文本行图片中存在的背景障碍物,然后对文本行区域进行倾斜与错切校正,最后对识别的结果使用基于Google拼写校对的方法进行修正,结果表明该方法有效地提高了识别准确率。