论文部分内容阅读
图片中的文字信息提取,一直都是研究热点,其在图像检索与分类、图书管理、票据证件与名片的处理方面都非常有帮助。它包括图像滤波、图像的几何校正、文字定位、颜色聚类、图像分割、倾斜校正、字符切分、二值化和文字识别等部分,而其中又以文字定位与识别最为重要。在文字识别技术已经非常成熟的情况下,本文对文字定位技术进行了深入研究,深刻分析了平面媒体中文字区域的特点,并提出了两种文字定位方法。首先,本文对基于纹理和区域的传统的文字定位方法进行了研究,提出了一种基于连通组件的文字定位方法。它首先对图像进行倾斜校正,其次对已校正的图像进行聚类分析,以削减图像中的颜色种类,再次对每一种颜色的二值图像提取连通组件,并使用多种特征对连通组件进行分类,最后将各种颜色的分类为文字区域的连通组件合并起来,得到图像的文字区域。本文提出的基于连通组件的文字定位方法可以非常好地定位出图像中的显著文字区域,但是由于聚类和使用的特征不够完善,不能定位与背景色相近或者是倾斜的文字。另外,基于纹理和区域的传统文字定位方法都有一个很大的缺陷,许多特征的阈值都需人工定义,给系统的可靠性带来了隐患。针对以上缺陷,本文提出了一种基于AdaBoost机器学习的文字定位方法。首先,搜集大量的平面媒体图片,其中包括书的封面、CD封面和电影海报,人工标记和提取其中的文字区域。其次,基于对文字区域和非文字区域的统计性差异分析,得到两大类特征集,用于构造弱分类器。然后,使用AdaBoost将上一步得到的弱分类器筛选和组织起来,得到一个三级的级联分类器。最后,通过将图片的子区域分类为文字和非文字区域,此级联分类器就能够定位出文字区域。为了软件更加易于使用,在C++实现算法的基础上,采用C#编写了用户界面。大量的实验结果表明,本文所提出的基于机器学习的方法,相比本文中提出的基于连通组件的文字定位方法,具有无需预处理(倾斜校正、聚类)、无需人工阈值、扩展性强的特点。与现有的其他方法相比,在定位单个字符、倾斜甚至竖直的文字行方面有更好的鲁棒性。