视频字幕的提取与识别研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:xxyty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频字幕往往包含了丰富的语义信息,与视频其它特征相比,更适于用作视频索引,因而对于视频字幕提取方面的研究备受关注。   本文对视频字幕提取的几个方面,包括字幕检测、字幕定位、字幕增强和字幕的二值化进行了研究。与文档图像相比较,视频中的字幕提取由于其较低的分辨率、复杂的背景、照明的变化、位置、形状与颜色的不确定而具有很大的挑战性。   为了便于后续的视频分析,首先进行了视频的镜头分割,然后利用计算相邻帧差的方法检测字幕事件。区域定位是字幕提取的关键一环,本文改进了投影分割的方法,实现了字幕区域的快速定位,然而,这种只依赖于字幕边缘特征的定位方法常常具有很高的误检率,因此,提出利用支持向量机对真实字幕和虚假字幕进行分类,从而将虚假字幕过滤掉。实验证明,这种将投影分析和支持向量机分类法相结合的方法不仅能够快速地定位出字幕区域,而且能够保证定位的准确性。   从一帧中定位出的字幕往往具有复杂的背景,但同一字幕事件中的字幕条前景相同,而背景可能不同。采用多帧平均法把属于同一字幕事件的所有帧进行字幕条叠加,可以起到平滑背景、降低噪音、提高分辨率的效果。   由于OCR识别器通常只接受二值图像进行文字识别,因此还需进行字幕图像二值化,本文根据字幕的不同情况,提出了两种二值化方法:对于具有丰富的彩色信息的视频字幕,利用基于模糊直方图提取字幕前景的方法对其进行二值化;对于噪点较多的字幕图像,利用机器学习方法中的多尺度条件随机场方法进行二值化。采用OCR工具对二值化图像进行识别的结果表明:相对于全局阈值法和局部阈值法,这两种方法对于复杂字幕的二值化都具有良好的效果。
其他文献
当今世界,科学技术飞速发展,信息技术日新月异。随着网络技术及多媒体技术的快速发展和在教育中的广泛应用,E-learning这一新颖的学习方式日渐得到应用和推广。网络学习平台
脱机手写数字识别在很多领域具有广泛的应用前景,国内外学者对此做了大量的研究工作,提出了很多预处理和模式识别的算法,大大提高了手写数字的识别精度。但到目前为止,手写数字识
工作流的概念起源于生产制造业与办公自动化领域,是针对日常工作中具有固定程序的活动提出的一个概念。将工作流引入企业日常工作给企业带来诸多好处:提高效率——自动化使得
网格是高性能计算和信息服务的战略性基础设施,而网格技术已成为下一代互联网应用的关键技术。高速网络的发展将分散的、异构的计算资源有机地整合到一起形成计算网格,为解决
随着Internet的发展,Internet已经成为人们获取信息的重要手段之一。Internet正不断增强着人类社会的生产力,改变着人类社会的生产方式,也因此Internet成为上个世纪最伟大的人类
数据挖掘被称为未来信息处理的骨干技术,它以一种全新的概念改变着人类利用数据的方式。数据挖掘是指从大量的数据中提取有用的信息和知识的过程。这里要求数据源应该是大量
随着移动通信的高速发展,世界各国已经对第五代移动通信技术(5G)开展了多方面研究,但与之相关的安全技术研究却相对滞后,5G网络安全体系对安全提出了更高要求,必须提供更高和
随着计算机技术不断进步和互联网技术飞速的发展,网络在我们的日常生活中扮演着越来越重要的角色。目前,互联网中有许多发展比较成熟的网络应用平台,尤其是基于Web VOD的网络
车间无等待流水调度问题广泛存在于制造工业中,如冶金、塑料、化工、食品加工等。总完工时间是一重要的质量衡量指标,它的最小化能有效降低设备空置率、缩短生产周期、降低成本
在现实应用中存在大量的海量数据,由于其太大而不能完全装入计算机内存。因此在快速的内存和相对慢速的外存(比如硬盘)之间的输入/输出(I/O)通讯就成了制约算法性能的主要瓶