论文部分内容阅读
近年来,随着互联网技术和多媒体技术的飞速发展,视频数据也呈爆炸式地增长,如何对海量的视频数据分类分析成为一个亟待解决的问题。在对视频分析时,通常先提取视频低层特征,再根据提取的特征对视频分析,而人们习惯于用高级语义描述视频,这就产生了巨大的语义鸿沟,如何跨越语义鸿沟成为人们研究的挑战,稀疏表示方法的深入研究给解决上述问题带来了新思路。 本文针对视频特征的多样性和稀疏字典的冗余特点,提出一种基于核可鉴别的分块稀疏表示视频语义分析方法,并将该方法应用到对新闻视频分类中,主要工作如下: (1)对视频的结构进行分析,并通过镜头检测分析将视频进一步分解,再从各个镜头中提取关键帧,并对关键帧进行特征提取,为语义分析做前期准备。 (2)提出了核可鉴别特征分块的稀疏表示方法。该方法根据视频特征独立性的特点,先将视频特征按照特征种类分块,再根据各种特征的维数大小分别建立其分块稀疏字典,并对每个分块字典在K-SVD算法基础上加入核可鉴别准则进行优化,使稀疏特征向量满足类内离散度较小、类间离散度较大的Fisher判别准则,且满足各种特征的稀疏表示特征具有更好的类别鉴别能力。该方法使稀疏字典的规模大幅度减小,同时加快了稀疏特征求解的速度。 (3)提出了多特征融合分析的视频语义分析方法。该方法先建立损失函数的计算准则,再根据准则计算测试样本与训练样本之间的损失函数值,结合改进的KNN算法对结果进行投票统计,然后根据类间特征的间距对统计结果的进行权重修正,使结果更准确,再根据各种特征对决策分析支持度进行融合特征分析,并输出分类的矢量标签。该方法在TRECVID2007所提供的新闻视频数据库测试表明,加入核可鉴别的分块稀疏化表示的视频特征分类分析效果更好,有效地提高了视频语义分析的准确性和分析速度。 (4)设计实现了基于稀疏表示的视频语义分析原型系统。该系统采用面向对象的设计方法,对系统的每个功能进行模块化设计,系统实现了视频预处理、关键帧提取、特征提取与分块、稀疏字典的优化训练和基于核可鉴别特征分块的稀疏表示视频语义分类分析,并设计了友好的界面和测试了整个分析系统运行的流畅性,验证了该方法的有效性和原型系统可用性。