论文部分内容阅读
在Internet上,纯文本页面被加入了越来越多的图片,这些图片中含有大量的字符信息,这些信息不仅可以被传统的文本搜索引擎用来索引和检索页面,而且可以帮助多媒体搜索引擎对图片进行检索。为了增强表现效果,网页图片中的字符常常具有非常丰富的颜色、语言种类、字体以及变化多样的排列方式,且字符尺寸较小。需要在现有的图像字符分割技术的基础上,针对以上特征研究适合网页图像的字符分割技术。字符分割通常分为字符区域检测和字符成分提取两个步骤。字符区域检测算法用于定位图像中的字符区域。针对该问题,设计并实现了一种基于边缘特征的检测算法,这类算法不仅对字符的尺寸,颜色,语言种类的变化有较好的鲁棒性,而且运算速度较快。现有的字符提取算法一般采用二值化技术,当字符区域内有多种颜色(灰度)的成分时,更合理的方法是将字符区域按颜色(灰度)特征分为多个成分。直方图分割可以用来划分图像灰度空间,因此给出了基于直方图分割的字符提取算法,该算法利用差分直方图所体现的分布变化,准确检测出分割点,结合一些先验知识可以有效地分离出图像中的字符成分。当检测到的字符区域含有与字符颜色(灰度)特征相似的非字符成分时,基于直方图分割的字符提取算法获得的结果质量不高,但如果将该方法结合空间位置信息,就可以有效的解决这个问题。因此给出一种基于聚类算法DBSCAN(Density-Based Spatial Clustering of Applications with Noise)的字符提取算法,该算法将图像中字符的提取过程看作是对颜色(灰度)相似且分布密集的像素聚类,在一个类中的像素即构成图像中的一个成分,再通过判定规则确定字符成分,达到字符提取目的。相对基于DBSCAN的字符提取算法而言,基于直方图分割的字符提取算法具有时间复杂度低的优势。为了从整体上提高字符分割的效率,需要采用简单规则对字符检测结果进行判断,对于较大的图像区域,可能含有与字符颜色相似的非字符成分,使用基于DBSCAN的提取算法,否则,使用基于直方图分割的提取算法。实验分别对字符检测算法、基于直方图分割的字符提取算法、基于DBSCAN的提取算法以及混合提取算法进行了分析。