论文部分内容阅读
随着多媒体产业的迅速发展,在生活中音频分析、图像分析和视频处理等方面的研究得到了越来越多人的关注,如何更好地去描述一个音频、图像或者视频就成为计算机视觉工作者们的研究热点问题。图像和视频通常被表征为多种局部特征描述符,例如SIFT(Scale-Invariant Feature Transform)特征、MBH(Motion Boundary Histogram)特征、HOG(Histogram of Oriented Gradient)特征和HOF(Histogram of Optical Flow)特征,每一种局部特征可以描述对象某些方面的特性,但是这种单一特征很难去刻画一些较为复杂的图像或视频。这就要求研究者们去融合不同特征来提高对图像或者视频的表征,但是目前广泛应用的融合方法没有考虑视频中多模态特征之间的关系。本文提出在VLAD(Vector of Locally Aggregated Descriptors)优化框架下对视频中多模态特征进行多种融合算法分析;并将线性判别分析的思想融入到典型关联分析的理论当中,力求通过添加判别条件,优化典型关联分析的融合效果;将混合概率典型关联分析应用在视频多模态特征的VLAD层融合当中,力求得到较好的融合效果。本文首先介绍视频中底层特征的选取,包括视觉的静态特征和动态特征,还有音频特征。其中视觉静态特征主要是选取方向梯度直方图HOG特征,动态特征选取方向光流直方图HOF特征和动作边界直方图MBH特征,音频特征选取梅尔频率倒谱系数MFCC特征。之后分别对不同特征进行局部特征聚合描述符VLAD优化表示,并在优化VLAD框架下进行多模态特征融合。其次,为了验证本文所提出的线性判别典型关联分析融合算法,将在UCF101和CCV数据库中对不同融合方法进行视频分类的实验对比,融合方法包括:描述符拼接D-level、典型关联分析、核典型关联分析、线性判别典型关联分析和混合概率典型关联分析。选择UCF101的原因是该数据库是目前所有动作类别数据库中,类别数最多的数据库,并且多次作为对比数据库出现在CVPR会议的文章中,但其中的视频都没有音频数据;选择CCV数据库是因为该数据库中大部分视频是具有音频数据的。最后对比不同特征融合算法在两种数据库下的分类准确率,进行总结分析,并对本文所提出的融合方法进行归纳总结,说明目前存在的一些问题,做出关于如何进一步提升融合效果的改进方向,并简单介绍其应用范围。