论文部分内容阅读
随着计算机、网络和数字化技术的发展和普及,网上多媒体数据量急剧增加,计算机自动处理、分析、挖掘、检索网上海量多媒体数据(特别是视频数据)已经成为信息社会的迫切需求,视频信息处理和内容分析的研究迎来了巨大的发展机遇,也面临着许多挑战。
过去10多年来,人们在镜头边界检测、场景分析、视频摘要等许多方面取得很大研究进展,主要成绩有:研究了各种低级视觉特征(例如颜色、边缘、纹理等)的提取方法和表示能力;采用了多种数学模型(例如隐马尔科夫模型HMM、高斯混合模型GMM等)进行视频内容分析,以发现各种模型对视频信息的建模和表达能力;探索了各种基于机器视觉、模式识别的方法,以发现更加有效的时空特征,以及更适合视频特征提取与识别的方法。
在这些研究中,已经有很多方法能够进入实际应用,如镜头边界检测技术等。但是,在所取得的大量研究进展之背后,我们还应清楚地看到一些难以解决的问题,例如涉及高层语义的场景分析问题仍然没有切实可行的解决方案,因为语义鸿沟的存在,基于语义的视频内容分析的研究尚无重大进展。
近年来提出的一些非线性降维方法,例如流形降维方法,在视频内容分析中可能会发挥重要作用,因为它能更好地揭示隐藏在观察数据中的某些内在规律,这是传统线性方法(例如主分量分析PCA)无法做到的。
本文采用流形降维方法处理视频内容分析中两个实际问题:镜头边界分类和场景分析。我们用一种流形降维方法即拉普拉斯特征映射来发现镜头边界附近图像序列的时域变化模式,用图像序列在其低维流形空间的映射来表示镜头边界的特征,以期反映镜头边界的本质特性;同时,我们针对镜头边界分类问题的样本不平衡特性,设计了一种样本大小相关的KNN分类器,以学习每一种类型的镜头边界的模式。实验表明,流形空间表示的图像帧序列模式能很好地反映镜头内容变化的本质特性。
对于视频场景分析,至今也没有取得良好进展,其主要原因是语义鸿沟问题。本文提出了一种介于镜头和场景之间的结构特征,它能在一定程度上刻画类似场景的结构信息,但又不涉及高层语义信息提取的难题。我们用拉普拉斯特征映射来提取上述结构特征,把镜头映射到流形空间上,并进行编码,从而获得一维的变化特征曲线。通过对具体案例的观察分析,我们发现该曲线既能反映镜头特征,又隐含了一定程度的场景结构信息。
总之,本文探索了流形降维方法在镜头边境分类和场景分析方面的应用,实验表明流形降维方法对于视频内容分析是一个有用的工具。