视频检索中字幕文本的提取研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:qq345071009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着视频内容的丰富,如何对大容量的视频内容进行有效的索引与检索,成为了热门的课题。视频内容中含有大量的文本信息,它们对视频画面起着描述、解释以及补充的作用,因此是视频索引与检索的重要依据。基于文本的视频索引与检索可以通过建立文本与视频内容间的有机联系来实现,而这种建立联系的工作涉及文本信息提取的操作。通常文本提取包含文本探测定位和文本分割。本文首先提出了一种基于混合特征的字幕文本定位方法,并给出详细的原理解释与实现过程。目前存在的混合特征方案中,有些先并行地对各特征进行探测,然后合并结果;有些按探测效率高低对各特征进行有先后的探测,但效果都不理想。本文方案构成如下:本文首先采用基于边缘探测的方法对候选文本块进行定位,因为该方法算法简单、查全率高,适合文本块初步定位工作,然后使用连通区域分析来修正文本的外接框,最后使用支持向量机(Support Vector Machine,SVM)对候选文本块进行筛选,排除在前一步骤中被误检为文本的非文本块。在对样本进行SVM训练时,考虑到SVM训练需要大量的时间和存储空间,本文对训练样本进行筛选。在已有方法的基础上,本文利用了同类(SVM中标识为同一类型)样本之间和异类(SVM中标识为不同类型)样本之间的欧氏距离大小作为提取准则,从整个样本集合中选取一部分样本进行训练。实验表明,本文的方法可以使用较少的样本进行训练来达到比较理想的训练效果。对于定位后文本块的分割,本文在已有方法的基础上建立了文本颜色信息和纹理信息的联合概率模型。在提取建模样本的过程中,以往的方法大多数只根据文字边缘信息来提取样本,提取的样本不够精确,本文在原有方法的基础上利用同一个文本块中其笔画宽度比较一致的特点来提取建模样本。从而使得训练的模型比较精确,因此本文建立的模型可以很好的将文字和背景分割开来。
其他文献
协作通信技术,是一种使得仅有单天线的移动终端也可以实现空间分集的新技术。它通过系统中各个用户帮助其伙伴用户传输信息,共享彼此的天线和空间信道资源,构成虚拟MIMO系统,
期刊
立体视觉是一门交叉学科,虽然已经有了20多年的研究历史,但是无论在视觉生理的角度,还是在实际应用方面来看,仍然处在十分不成熟的阶段。本文主要对立体匹配算法和基于立体匹配的
期刊
空时编码技术应用于多输入多输出(MIMO)无线通信系统之中,主要考虑如何将调制后的符号在空间维和时间维上进行分配传输。它可以提高整个通信系统的吞吐量,或者可以提升系统的误
智能视频监控技术是利用计算机视觉技术对视频信号进行处理、分析和理解,并对视频监控系统进行控制,从而使视频监控系统具有像人一样的智能。运动目标的检测与跟踪技术是实现
说话人识别是根据语音波形中反映说话人生理和行为特征的语音参数,自动识别出说话人的过程,它是语音信号处理的一个重要研究方向,作为一种生物认证技术,具有广泛的应用前景,
人脸识别因其友好、自然、对个人干扰少等优点,成为生物特征识别领域里的佼佼者。虽然基于二维人脸的识别技术在实际应用中已经取得了不错的识别效果,但其易受光照、化妆和姿
脑电信号(EEG)反映了人体神经元的活动,其中蕴含了非常重要的信息,这些信息不仅可以使人类更好的认识大脑,帮助医生诊断和治疗脑部疾病,更重要的是通过对大脑的认识更好的挖
期刊