基于MPEG的视频文字提取算法

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:123hui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展和网络带宽的提升,视频数据量成爆炸式增长。图像特征提取近年来成为图像研究的热点,在此基础上的视频中的文字是视频语义理解的重要信息来源。由于视频是集图像、声音、文字等为一体的综合性媒体,而其中的文字又是最接近高层语义的信息,通过对视频的分析从而对文字对象的快速定位和提取,实现对视频的内容检索、关键词提取、安全性筛选等等。视频文字检测技术在文字输入输出、机器翻译、语言学习、信息检索、信息安全、数据挖掘、人工智能领域,都有广阔的应用空间。视频文字提取算法研究以图像文字提取算法为基础,同时视频文字也有一些自己所特有的性质:例如图像分辨率不高,边缘模糊,这些缺点将会影响检验结果,应利用图像处理方法尽可能的还原清晰图像。另一方面,文字会持续出现在连续多帧中,文字相对静止而背景相对运动等等,这些特性也可以利用以提高检测效率,是研究的重点。算法将视频文字提取分为文字检测和文字分割两个步骤。其中,第一步是直接在DCT域中操作,是本文的重点和创新点。首先使用边缘检测方法进行初始定位,然后运用形态学方法把文字块(DCT块)聚合成完整的文字(区域),再通过判断文字区域的持续时间进行精确检测,其中还涉及到相同区域的文字同一性的检测。在第二步文字分割中,首先对检出片断进行IDCT解码,这并不影响整个算法的效率,然后利用同一文字片段出现的连续多帧信息处理图像,达到增强文字的效果,接下来利用阈值实现文字片断二值化,最后结果可以直接输入OCR软件文字识别。创新之处在于将图像文字检测方法和MPEG压缩方法相结合,不需要解压缩步骤,这样做不仅大大降低了运算量,而且巧妙的在DCT域上进行边缘检测,直接提高了检测效率。另外,创造性地利用视频文字持续出现在连续多帧中的特点,判断同一文字区域的持续时间,将相对静止的文字从背景中分割出来。对视频文字独有特性的利用贯穿于整个算法的始终,有效地实现了算法性能的提高。实验表明,算法直接应用于压缩视频可以提高检测效率,同时结合文字的多帧连续特性可以降低算法的误检率,多帧结合增强文字还可以有效地提高文字二值化效果,从而提高OCR软件的识别率。
其他文献
近年来,全球定位系统和无线通信技术的发展,使人们对移动目标进行远程监控调度成为可能。但随着GPS技术的不断更新发展,以及GPS接收机的大量使用,使得实时GPS数据呈几何级增
近年来,神经网络集成技术已成为机器学习领域研究的热点之一,它可以获得比单个神经网络更好的泛化能力和稳定性,其中的选择性集成技术由于其在推广性和组合性方面的优势得到
传统的垃圾邮件过滤技术利用邮件过滤器独立工作,所能获得的垃圾邮件信息较少,效率较低。分布式垃圾邮件过滤技术通过网络交换邮件信息来更加准确地识别垃圾邮件,能够很好地利用
软件缺陷是软件开发过程中的产物,也是攻击者发起系统攻击的切入点。攻击模式是从攻击者的角度研究软件缺陷的最好方式。在信息安全领域,软件缺陷与攻击模式的种类复杂、数量
随着网络技术和图像处理技术的快速发展,图像数据逐渐成为人们获取信息的重要来源,但这同时也带来了图像信息安全隐患问题。由于图像数据具有编码结构特殊、数据量大、实时性要
时空统计分析方法是处理大量数据、揭示事物内部规律的有力工具。海洋大气环境是一个典型的多维动态变化环境,由于时间维和高度(或深度)维的引入,数据量急剧增加。多变量大样
进入新世纪以来,随着信息技术尤其是无线通信技术的发展,一种具有独特网络特性的网络——机会网络走入了人们的视野。这是随着无线网络应用的逐步扩大到各个领域中,人们发现
网格是新一代的互联网,是一种新的信息基础设施。它将引发继传统因特网、WEB之后的第三次信息技术革命。将网格技术应用于铁路货物运输系统属全国首例。建立铁路网格平台,可
互联网的发展和广泛应用带来了网络安全问题,从而促进了入侵检测技术的发展。如今,入侵检测系统取得了长足的进步并获得了广泛应用,但仍存在一些问题。本文的研究内容是入侵
本文研究的传媒业务支撑系统(MBSS,Media Business Support System)是利用互联网为载体,在网上发行、传播的应用系统。该系统不仅为广大客户提供方便、快捷、丰富的商业信息,