论文部分内容阅读
随着视频采集、存储和压缩编码技术的发展,数字视频数据的数量迅猛增长。目前,关于视频的应用已经从最初单纯的播放操作,发展到要求对视频内容进行访问和操作的更高层次,如视频索引与检索,视频理解等。这些应用中的核心问题是如何有效地对视频内容进行表示以及有效地对视频内容进行访问。由于许多关于视频内容分析的算法是基于像素域的,需要在进行视频分析前对码流进行解码得到视频特征。而压缩的视频码流中存在反映视频内容的特征,通过直接利用从压缩的码流中提取的视频特征,可以避免解码运算,实现实时的视频分析算法。
本文的研究主要集中在三个方面:压缩视频码流中的特征提取,利用从视频码流中提取的特征进行镜头边界检测,和利用从视频码流中提取的特征进行视频目标分割。主要的贡献为:(1)建立了压缩域视频特征提取和应用的研究平台;(2)提出了一种新的基于局部特征的实时镜头突变检测算法。该算法利用从压缩域中提取的边缘特征,通过考察相邻帧边缘分布的相似性定义了一种反映局部信息的帧间相似性度量。结合反映全局特征的基于彩色直方图的相似性的度量和改进的滑动窗算法,实现了高性能的镜头边缘检测。相对于现有的基于局部特征的算法,该算法具有更低的运算复杂度,适合于实时的应用。(3)提出了一种改进的基于模型的溶解镜头检测算法:算法在预选阶段采用亮度图像和梯度图像的统计特征互检验的方法显著地提高了查全率;在验证阶段,通过施加多个平行的限制条件,在保证仍有较高查全率的前提下,有效地去除了由摄像机或目标运动引入的误检。实验结果表明,该算法有效地提高了检测的性能。(4)提出了一种高精度的压缩域视频目标分割算法:该算法以压缩域中提取的特征为输入,提取P帧中的运动目标。算法首先采用I帧和P帧中每个块的直流DCT系数和3个交流DCT系数,以及运动补偿信息,重建出P帧的原图像1/16大小的子图像;然后采用快速平均移聚类得到具有较高边界精度的亮度一致的区域;接着利用全局运动估计和目标掩模反向映射得到潜在运动块的分布;最后结合聚类分析结果和潜在运动块的分布,采用基于马尔可夫随机场的统计标号方法对目标和背景区域进行分类。该算法可以得到4×4子块的边界精度,对于CIF格式的码流,在Pentium IV2GHz平台上可以达到每秒40帧的处理速度。