论文部分内容阅读
信息科技的突飞猛进,特别是九十年代以来多媒体信息的迅速膨胀,使得数字图像记录设备保有量大大增加,每天产生数以万计的视频,这些视频包含了生活的方方面面。海量的视频量给人们的生活带来了诸多不便,现在人们并不担心无法找到视频,相反,人们所担心的正是怎样从这数以万计的视频中直接找到自己想要的,而不需要一个个地进行分辨,因此就需要对视频进行分类标注,以方便人们检索。但当前视频分类方法绝大多数都是基于文本信息来分类的,而不是基于特征匹配的方法,像目前常用的搜索引擎就是用文本搜索来实现视频标注。由于基于文本的标注方式是由周边文本信息来标注视频内容的,所以会存在很大的不确定性,因为缺少了对视频内容的分析。而基于特征匹配的分类方法是对视频内容进行了全面的分析后进行的类型标注,因此包含的信息自然更加准确,也更能代表视频中包含的内容与信息,因此得以广范应用。
视频在结构上主要分成四个层次,由下到上依次为:帧层、镜头层、场景层和视频层,而通常的视频标注主要是从帧层提取特征,然后将结果标注到视频层。本文研究视频关键帧的提取以及帧的特征提取与匹配,并以这些特征实现视频标注。文章主要包含如下几块内容:
1、关键帧的提取。视频包含大量重复的或者相似度比较高的帧,而这些帧由于特征近似,需要分离出去,因此文章从分析视频的图像帧出发,着重考查从视频中提取关键帧,对传统直方图算法进行了一些改进,提出了基于不均匀分块HSV直方图的分析算法,并引入区域加权系数,突出了图像中心区域特征的重要性,使得算法能够实现快速、良好的关键帧提取工作,大大减少了帧数量,提高了处理速度。
2、图像关键帧的特征提取。SIFT算法具有良好的稳定性与空间不变特性,提取出来的信息丰富;DBSCAN算法能够有效地对特征进行聚类分析,排除噪声点与边缘点的干扰,并且不需要提供先验信息。鉴于上述两种算法的良好性能,本文提出了SIFT-DBSCAN算法,用于从图像中提取特征并直接进行特征压缩。SIFT-DBSCAN算法能够准确地提取出具有典型代表的图像特征,不仅使得样品库大大减少,也图像的处理速度也得到了一定程度的加快。
3、特征匹配分类。对样本库中的图像特征与待分类图像的特征进行匹配分析,采用余弦相似度作为度量手段,将未分类图像的类别标注为与其特征与最为最近的库的类。以帧的类别标注结果为依据,对视频进行类别标注。
经过实验分析验证得出,基于不均匀分块HSV直方图的关键帧提取算法,能实现关键帧的快速准确提取,而SIFT-DBSCAN算法可以实现提取具有代表性的图像特征,进行特征匹配分类时,减少了计算量,分类效果得以优化,同时系统运行速度也得到了一定程度的提升。