论文部分内容阅读
随着信息技术的发展和网络带宽的提升,视频数据量成爆炸式增长。图像特征提取近年来成为图像研究的热点,在此基础上的视频中的文字是视频语义理解的重要信息来源。由于视频是集图像、声音、文字等为一体的综合性媒体,而其中的文字又是最接近高层语义的信息,通过对视频的分析从而对文字对象的快速定位和提取,实现对视频的内容检索、关键词提取、安全性筛选等等。视频文字检测技术在文字输入输出、机器翻译、语言学习、信息检索、信息安全、数据挖掘、人工智能领域,都有广阔的应用空间。视频文字提取算法研究以图像文字提取算法为基础,同时视频文字也有一些自己所特有的性质:例如图像分辨率不高,边缘模糊,这些缺点将会影响检验结果,应利用图像处理方法尽可能的还原清晰图像。另一方面,文字会持续出现在连续多帧中,文字相对静止而背景相对运动等等,这些特性也可以利用以提高检测效率,是研究的重点。算法将视频文字提取分为文字检测和文字分割两个步骤。其中,第一步是直接在DCT域中操作,是本文的重点和创新点。首先使用边缘检测方法进行初始定位,然后运用形态学方法把文字块(DCT块)聚合成完整的文字(区域),再通过判断文字区域的持续时间进行精确检测,其中还涉及到相同区域的文字同一性的检测。在第二步文字分割中,首先对检出片断进行IDCT解码,这并不影响整个算法的效率,然后利用同一文字片段出现的连续多帧信息处理图像,达到增强文字的效果,接下来利用阈值实现文字片断二值化,最后结果可以直接输入OCR软件文字识别。创新之处在于将图像文字检测方法和MPEG压缩方法相结合,不需要解压缩步骤,这样做不仅大大降低了运算量,而且巧妙的在DCT域上进行边缘检测,直接提高了检测效率。另外,创造性地利用视频文字持续出现在连续多帧中的特点,判断同一文字区域的持续时间,将相对静止的文字从背景中分割出来。对视频文字独有特性的利用贯穿于整个算法的始终,有效地实现了算法性能的提高。实验表明,算法直接应用于压缩视频可以提高检测效率,同时结合文字的多帧连续特性可以降低算法的误检率,多帧结合增强文字还可以有效地提高文字二值化效果,从而提高OCR软件的识别率。