论文部分内容阅读
随着互联网技术的迅猛发展,数码产品的普及以及存储器容量的提升,视频数据量呈现出指数级增长,如何对海量视频数据进行有效的检索已经成为一个亟待解决的问题,于是基于内容的视频检索就成为了当前多媒体领域的研究热点。
本文在综合分析已有基于内容的视频检索方法的基础上,提出基于条件笔画密度提取的文本定位方法,基于蚁群与K-均值聚类相结合的文本分割方法和一种基于多模板字符匹配与BP神经网络相结合的字符识别方法,并设计实现相应的原型系统。具体内容如下:
(1)把条件密度引入到笔画提取中,提出基于条件笔画密度提取的文本定位方法。该方法首先根据文本笔画的特征对视频图像中的文本进行初步定位,然后用基于条件密度的方法滤除一部分非文本区域,最后再利用动态形态学对提取的文本区域精确定位和进行优化得到最终的文本区域。该方法能滤除大部分非文本信息,得到相对精确的文本区域,并且定位效果较好。
(2)针对当前视频中文本区域分辨率较低且受光照影响较大的问题,为了在提高文本图像精度的同时减少光照对文本图像的影响,提出一种基于蚁群与K-均值聚类相结合的文本分割方法。该方法充分发挥蚁群算法的全局优化特征和K-均值算法的局部寻优能力,克服K-均值聚类算法易受孤立点影响的缺点,利用两种方法可以优缺互补的特性,对视频图像进行文本分割,取得了较好的分割效果。
(3)提出一种基于多模板字符匹配与BP神经网络相结合的字符识别方法,先建立字符模板库,不仅考虑字号大小,而且还结合了不同字体混排的现象,来扩充模板库;然后通过BP神经网络对由字符分割得到的字符进行训练识别并输出,最后采用字符区域分割匹配的方法与字符模板库进行匹配,得到识别结果。该方法充分利用了两种方法的优势,使实验结果较好。
(4)采用面向对象的思想设计并开发基于笔画内容的视频检索原型系统。该系统包括文本检测、文本定位、文本分割、字符识别等功能模块。并通过实验对比验证上述方法的有效性。