快速和准确的单色视频文本提取方法

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:tomily98
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频文本信息是视频内容的重要线索,它对于视频分段、视频检索和视频信息摘要等视频自动化处理有着重要的意义。但是如何在复杂背景的视频图像中准确提取出文本信息,这在目前仍然是一个开放的课题。   视频文本的提取包含视频文件的单帧提取、单帧图像的文本提取这两个过程。视频文件的单帧提取是在一段连续的视频中采样出单独的视频帧作为后续处理的对象;单帧图像的文本提取时从采样出来的视频帧中提取出二值化的文本图像。   当前流行多种视频格式,而本文使用DirectShow工具实现了对大多数格式视频文件进行统一的单帧提取。   当前的单帧图像的文本提取算法大致可以分成基于边缘、基于纹理和基于颜色三大类。基于颜色的算法可以得到准确的二值化的文本图像直接作为OCR输入,而基于边缘和纹理的算法只能得到视频文本的大致区域;但由于基于颜色的算法一般需要把视频图像分解成各个颜色的子图然后分别进行处理,其算法效率比基于边缘和纹理的算法低。   为了解决提取效果和提取效率的矛盾,本文提出了一种综合的方法,首先使用一种基于边缘的方法在视频图像中快速定位出可能出现文本的区域,然后使用一种基于颜色的方法在这些区域提取出准确的二值文本图像。文本定位首先对视频图像进行灰度化,然后使用deriche-canny方式对图像进行边缘提取;通过对图像各个区域的密度检查和区域合并,得出候选的文本行区域。文本提取算法首先对候选的文本行区域的中间像素行进行颜色采样,然后对采集的颜色进行聚类,对每一类颜色产生一个原图像的单色子图;通过寻找子图中的文本上下边界来确定文本的前景色,最后利用文本颜色的连通区域精确提取出二值化文本图像。   为了验证算法的有效性,本文引入了OCR对提取得到的二值化文本图像进行识别,并将本文算法与文献[20]单纯基于颜色的算法在提取效果和提取效率上做了比较。从实验结果看,本文算法准确度和效率都优于文献[20]的算法。
其他文献
三维GIS技术是目前GIS科学发展的主流趋势之一。与传统的二维GIS相比,三维GIS将地理空间现象以立体造型展现给用户,表达了对象的空间位置关系,并能够进行三维空间分析和操作,
近几年,随着电子商务等需要的剧增,人脸自动识别已经成为了最具潜力的身份认证方式。人脸自动识别具有非侵犯性、直接性和友好性,更加符合人们的视觉习惯,是人们最容易接受的
图像分割是从图像处理到图像分析的关键技术,是图像理解的基础,也是计算机视觉领域中的最基本和最关键问题之一。所谓图像分割是指把图像分成各具特性的区域并提取出感兴趣目标
Internet技术的广泛应用和移动计算、网格计算以及普适计算平台的快速发展,要求分布式系统能够满足大规模、分散控制和动态改变的要求。这就要求系统的各参与者之间,采用一种具
排课问题又称为时间表问题(Timetable Problems; TTP),它涉及到班级、课程、教师、教室、时间等众多因素,受到教室、时间、班级等多重约束,是一个组合优化问题。随着办公自动化
学位
图像/视频编码可有效减少数传带宽和存储空间,广泛应用于传输、存储和检索等系统中。研究图像/视频编码中的关键技术,获得质量和码率的平衡,具有重要的理论与现实意义。本文结合
图像作为一种媒介具有文字所无法比拟的丰富表现力,成为我们这个社会一种非常重要的存储和表现信息的载体。但是由于各种原因引起了图像信息的损坏,对这些损坏的信息进行恢复就
表决系统在多版本软件容错系统中有重要的作用。多版本软件容错系统由几个实现同样功能的独立软件版本和表决系统构成。其中,表决系统的作用在于对几个软件版本的输出结果进行
样条是一类特别有效的逼近工具。多元样条在计算机辅助几何设计中有重要的应用。计算机辅助几何设计(ComputerAidedGeometrieDesign,英文缩写CAGD)的研究对象是几何造型,主要研
随着数据规模的不断增大以及数据维数的不断增长,传统的聚类算法已经无法获得有意义的聚类结果。针对高维数据流的聚类问题,本文将重点放在聚类过程中存储空间的有效利用、聚