基于角点密度检测和二次二值化的新闻视频字幕提取研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:caifh8706
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术和视频技术的研究发展,网络上的视频数量越来越多,想要在海量的视频数据中准确提取自己所感兴趣的视频数据也是一个困难的事情,因此视频的检索技术应运而生,研究人员提出了一种新的视频检索技术:基于内容的视频检索技术(Content-Based Video Retrieval, CBVR)。CBVR技术的基本思想是提取视频数据的特征构成描述视频内容的索引,但是图像中的纹理、颜色等底层的特征信息无法最精确的表述视频的内容,研究人员逐步向着提取视频高层语义的方向发展。视频的字幕信息包含了视频中的大部分高层语义,能够准确的描述视频的主要内容,因此如果能有效的提取视频字幕将会为视频的检索提供很大的帮助。然而视频字幕一般分辨率较低,而且通常还镶嵌在复杂的背景图像中,无法直接使用OCR技术进行字幕的识别,因此想要准确提取视频字幕信息就要克服这个困难。本文综述了视频字幕提取的发展状况,分析了目前的一些视频字幕提取的方法,针对视频字幕提取的难点,提出了有关视频字幕提取的一些新的方法:一是基于角点密度检测的字幕区域的检测方法。这种方法利用视频图像中字幕区域的角点信息都比较密集的特征去检测字幕区域,首先检测到图像的角点信息,然后筛选出角点密集的区域作为候选字幕区域,最后制定启发式规则过滤掉一些干扰区域,得到最后的字幕区域。二是基于字幕本身特性的二次二值化的方法。一般二值化的方法有全局阈值和局部阈值的方法,但是不管是全局阈值和局部阈值,二值化的结果都和阈值的选取有关,阈值会影响二值化的效果。本文提出了一种基于字幕本身笔画和颜色信息的二次二值化的方法,首先利用字幕的笔画特征得到笔画图,完成第一次二值化,然后利用字幕的颜色信息提取字幕图像中笔画密集的区域,最后通过连通域分析的方法滤除一些噪声得到最后的二值化的结果。
其他文献
随着DT(Data Technology)时代的到来,数据的价值在各行各业中越来越得到广泛重视。如何从纷繁复杂的数据中发掘去一些有价值的信息来指导和改善我们的工作和生活具有重要的意
随着互联网的高速发展,网络信息成爆炸式增长。如何快速、准确的从这些海量数据中获得有用的信息成为了人们关注的焦点。目前通用搜索引擎在搜索人物上的表现已经远远无法满
图像分割是由图像处理到图像分析的关键步骤,在实际中有着广泛的应用。将数学形态学的思想用于图像分割是近年来图像处理研究的热点之一。目前基于数学形态学图像分割方法的研
知识获取是知识工程中关键的一环,而从文本知识源中获取专业知识是一种重要而常用的途径。但从文本中获取知识并不简单,不管是手工获取还是机器获取,领域专家所使用的概念都
随着互联网的普及,计算机在各个领域的普遍应用给人们的工作和生活带来了很大的方便,人们在享用信息社会方便高效的同时,也面临着各种各样的安全风险。黑客的攻击,病毒和木马
随着网络技术、计算机技术和通信技术的迅速发展,医疗数字化渐成趋势,PACS(Picture Archiving and Communication Systems)医学图像的存档和通讯系统也逐步普及。由于PACS需
从海量生物数据中挖掘出反映疾病发生发展变化的重要信息,尤其是恶性肿瘤发生的关键特征,是生物信息学及其应用研究的一个热点问题。在生命机体中,分子间彼此相互关联、相互作用
计算机网络技术和流媒体技术的快速发展,尤其是3G移动通信技术和H.264数字视频编码标准不断的完善和普及,使得视频技术已被广泛用于人们日常生活中。但由于视频内容易复制、易
尽管二维掌纹识别技术的发展已经比较成熟,但是传统的二维识别算法主要利用手掌的灰度信息,无法完全避免光照强度变化、拍摄角度倾斜等因素带来的干扰。因此,人们开始关注使
中国手语合成系统旨在为聋人教育,聋健间的无障碍交流创造环境与基础,它利用人工智能,计算机图形学等技术,实现用三维虚拟角色演示用户指定的中国手语。系统的成功研发,为聋