论文部分内容阅读
随着计算机科学、多媒体技术的飞速发展,彩色视频成为电视以及网络中最受欢迎的媒体形式。在彩色视频中,文字信息(例如新闻标题、旁白、演职员名单等等)包含了丰富的高层语意信息,是多媒体数据中最重要的线索。自动提取出这些文字,通过对它们的识别和分析,可以完成对视频高层语义的索引和检索。
目前的彩色视频文本提取识别,存在以下困难:视频图像的分辨率低,图像质量差,文本的背景复杂,字符的尺寸、位置、颜色和光照变化较大。本文从以上难题入手,对文本定位、文本增强、文本分割及字符识别进行了研究。
在文本定位方面,本文针对彩色视频中文字排列的特点,提出了一种基于Lab颜色空间彩色边缘检测的文本定位方法。该方法简单有效,鲁棒性较高。
在文本增强方面,由于视频文本一般在连续多帧出现,提出了分块多帧增强算法,首先利用有限状态机对文本进行跟踪,然后对连续多帧出现的文本进行分块增强。
在文本分割提取方面,结合数学形态学处理,采用改进的Otsu算法对文本区域进行了精确的文本分割,分割后的文本区域可以直接进行文本识别。
在字符识别方面,介绍了字符识别的基本原理和主要方法,并应用改进的BP算法实现了一种英文及数字的识别。
实验结果表明,本文提出的方法对于中英文的定位、提取同样适用,尤其对于彩色复杂背景下的文本提取、识别的效果改善更加明显。