【摘 要】
:
视频中的文本信息是辅助理解视频内容的重要线索,有效地提取这些文本信息对视频内容的自动理解及检索等应用来说无疑是一项关键的技术。目前,商业OCR对普通图像的识别达到了
论文部分内容阅读
视频中的文本信息是辅助理解视频内容的重要线索,有效地提取这些文本信息对视频内容的自动理解及检索等应用来说无疑是一项关键的技术。目前,商业OCR对普通图像的识别达到了相对成熟的水平,但是对于背景复杂、干扰强烈的视频文本图像的识别还不能有效地应对。通过文本提取方法使视频文本图像能够被OCR系统正确识别,是本文主要解决的问题。针对视频中文本背景复杂、干扰强烈等问题,在对前人相关工作进行分析、研究的基础上,本文提出一种基于颜色聚类和连通域分析的文本提取方法。即使用文本检测和定位作为前处理步骤,综合利用文本的颜色分量信息及连通域信息,尽可能多地提取文本信息,同时利用连通域填充等降噪方法最大限度地减少干扰,得到能够被OCR正确识别的清晰的二值图像。本文提出并实现的文本提取方法在视频文本提取系统中得到成功的应用,使该系统完整地实现了从输入视频到产生OCR识别结果的总体流程。实验结果表明,本文提出的文本提取方法是鲁棒的和有效的。
其他文献
本论文针对如何优化海量数据系统性能的问题进行若干方面的研究,提出了基于多因素的缓存替换算法CacheValue以及在数据库查询优化方面提出了基于双半连接的查询优化算法。
随着信息科技的迅速发展,基于闪存的存储设备以其显著的高性能和低能耗等优势,正逐渐成为计算机存储系统中的一个重要组成部分。然而,由于其相对较高的价格和低容量,如何通过
视频分辨率正朝超高清方向发展,分辨率的提高可以提供更好的用户体验,但也使得编解码过程中的计算复杂度急剧增加,对其实时处理带来巨大挑战。新兴的CPU+GPU异构多核处理平台
电子邮件已经成为人们不可或缺的交流媒介,然而垃圾邮件的盛行不仅占用网络资源,甚至危害社会公共安全。当前邮件分类技术存在较高的正常邮件误判率,然而社交网络中用户的爱
随着现代信息技术的高速发展,各行业内部以及行业之间已经建立起基于网络的信息管理体系,数据交换和数据传输活动的曰益频繁使得对于数据交换的研究也显得日益重要。同时在网
电机优化设计一直是工程数学、电机设计理论、计算机科学等众多领域的一个研究热点。它是一种多变量、有约束、非线性的多目标问题,要求在满足约束前提下,借助最优化方法实现目
多通道大尺度投影系统是利用多台投影机的输出图像在显示屏幕上拼接成完整的大画面的技术。其具有尺度大,分辨率高等特点。 本系统的主要技术有几何校正技术、颜色校正技术
随着信息技术的高速发展以及安全形势的迫切需要,人们对安防设备的智能性要求日益提高,智能视频监控技术已成为当今较为前沿的研究课题。其中,运动目标检测和跟踪技术作为智
随着互联网技术的发展,全球数据存储总量呈现爆炸式的增长,这对现有的存储系统提出了更严峻的挑战。一方面传统硬盘的存储密度已经接近极限,需要寻求瓦记录磁盘等技术来实现存储