论文部分内容阅读
文本是图像和视频中重要的内容信息,对检索和浏览有十分重要的意义。文本可以作为视频片断的内容标识和索引,例如在新闻视频中出现的新闻摘要,可以作为该段新闻内容的描述,用于新闻视频资料的检索;文字可以作为视频内容重要程度的判断依据,例如出现醒目文字的帧,可以抽取出来作为对应的视频片断的代表帧。如果这些文字能自动地被检测、分割、识别出来,则对图像高层语义的自动理解、索引和检索是非常有价值的。 图像和视频中的文字提取属于信息智能化处理的前沿课题,是当前计算机视觉领域中的研究热点。目前已有许多图像和视频帧文字区域的定位和提取算法,有基于边缘特征的、基于纹理特征的、基于区域的和基于学习的方法等,但是还面临着不少的困难:视频图像的分辨率低,图像质量差,文本的背景复杂;字符的尺寸、位置、颜色和光照变化较大。 本文针对图形文本的角点信息较为丰富的特点,给出了一种基于角点检测和形态学的文本定位方法。通常情况下,彩色图像和视频中的文本,在颜色或亮度方面与背景有着显著的强度对比,因此文本区域将会包含丰富的角点信息。因此对于图形文本,可根据图像的角点信息来确定候选文本区域。首先检测图像的角点,得到图像的角点分布图;然后对角点图进行滤波融合,最后利用形态学运算将角点聚合形成文本区域,并根据规则进行区域验证。实验表明,该方法可以提取出大部分的文本区域,特别是对背景本身包含的角点不是很丰富的图像或视频帧,具有较高的准确性。但由于该方法是根据图像中的角点信息来检测和提取文字区域,当图像或视频帧中背景本身包含了丰富的角点信息时,则会有很多被错误提取出来的文本区域。 最后,本文讨论了阈值分割技术和经典的分割方法,简要地介绍了字符识别原理和几种常用的字符识别方法。