论文部分内容阅读
随着近几年来多媒体技术和网络技术的发展,网络上涌现出了越来越多的视频短镜头和在线视频网站,因此,基于内容和语义的视频短镜头的分类检索也成为了一个人们研究领域。视频短镜头是由时间上连续的帧图像组成的集合,因此对视频的分析包括空间和时间两个方面。空间上的分析,可以利用现有的图像特征提取技术,提取有效的视觉特征;对时间的分析,就需要对短镜头的数据进行结构化分析和处理。静态和动态特征的结合形成描述短镜头内容的特征空间。另一方面,由于传统的视频镜头分类系统没有考虑镜头的高级语义信息,这样导致了底层视觉特征和高层语义信息之间存在着语义鸿沟,因此在分类系统中加入对语义特征的分析和研究是十分有必要的,尝试由视频短镜头的底层特征推知高层语义信息,从而实现基于高级语义的镜头分类系统。因此,本文主要从以上两个方面进行了研究,并根据现有方法的特点和不足,提出了相应的解决办法。在提取了多种视频短镜头的视觉特征的基础上,采用互信息的方法研究单一的视觉特征的鉴别力,该方法理论基础强,不依赖于分类器的种类,从特征含类别的信息量的多少来分析特征的鉴别力,表达了图像特征与类别之间的内在联系,试验中基于SVM分类器的分类错误率也反映了使用互信息进行特征分析和选择的正确性和有效性。接下来使用SVM分类器,分析各种视觉特征之间的互补或冗余关系,从而进行最优特征组合的选择。研究确定的针对真人/动漫类别的最佳特征是RGB改进颜色矩+边缘动态特征的组合特征,针对人物/风景类别的最佳特征是RGB改进颜色矩+Gabor纹理特征+边缘动态特征的组合特征,针对体育/娱乐类别的最佳特征是边缘方向直方图+颜色动态特征。最后在针对球类比赛的视频短镜头分类系统中加入了高级语义特征的提取和研究,利用镜头内关键帧的比例和关键帧内球场区域像素比例的特征组合,将短镜头数据库分成场内和场外场景,利用球场区域的比例进一步将场内镜头分为远景和近景镜头,同时利用边缘区域的像素比例将场外场景分成教练员和观众镜头,从而形成了一种针对球类运动的分等级的短镜头分类器。