论文部分内容阅读
近年来,随着信息技术的迅猛发展和多媒体的广泛应用,多媒体技术已经成为人们研究的热点。而跨越视频底层特征与人类思维中的高层语义之间的语义鸿沟成为横亘在众多学者面前的亟待解决的问题,基于语义的视频检索技术应运而生。视频数据的语义分析和分类是基于语义的视频检索的主要研究内容之一。因此,研究快速而有效的视频语义分类方法至关重要。与此同时,在信号重建领域出现的稀疏表示理论的发展,也为视频的语义分析提供了可靠的理论依据和技术支持。
由于视频特征具有非线性的特点,结合稀疏表示理论,本文提出了基于核可鉴别字典优化的视频语义特征稀疏表示方法,并在此基础上提出了基于核可鉴别的视频特征稀疏表示语义分类算法,主要工作如下:
(1)提出了基于核可鉴别字典优化的视频语义特征稀疏表示方法。通过在K-SVD稀疏表示字典优化算法中引入核函数和类别矢量,提出一种新的基于核可鉴别的稀疏表示字典优化算法。该算法将低维空间中的视频稀疏表示特征映射到高维空间并使之满足类内离散度小、类间离散度大的Fisher准则,建立可鉴别模型。使用该模型对字典的优化求解进行约束,形成优化字典,并由该字典求解视频特征的稀疏表示。这种算法充分考虑了视频特征之间的非线性相关性,与传统K-SVD算法相比,本文算法所求解的稀疏表示特征更具有鉴别性。
(2)在利用基于核可鉴别的字典优化算法求解视频的稀疏表示特征后,提出了基于核可鉴别的视频语义分类算法。该方法利用训练样本的类别标签,在训练样本和测试样本上建立关于类别的分类准则,将核函数带入该准则中,形成基于核的分类鉴别损失函数,分别计算测试样本在各个类别上的分类鉴别损失函数值,根据分类鉴别损失函数值获得测试样本的预测类别标签。在TRECVID2007所提供的新闻视频数据集上的实验表明了基于核可鉴别的视频特征稀疏表示语义分类算法的有效性,分类准确率得到了提高。
(3)采用面向对象和模块化的设计思想,设计并实现了一个基于非线性可鉴别的稀疏表示视频语义分析系统。该系统实现了基于核可鉴别字典优化的视频语义特征稀疏表示以及基于核可鉴别的稀疏表示视频语义特征分类。通过原型系统的运行测试,验证了系统的有效性和可用性。