论文部分内容阅读
近些年来,随着网络和数字化技术的迅猛发展,信息化程度的不断提高,网上多媒体数据量越来越多,包括文本、图像、视频以及音频等多种形式。传统的信息检索系统已经无法处理这些数量巨大且迅速增长的媒体数据,人们迫切需要一种新的自动化的方法来处理、分析和检索网上海量的多媒体数据,尤其是视频数据,这是因为视频数据融合了图像、文字、声音等多种媒体,具有最强的表现力且被广泛使用。在这一背景下,国内外众多研究人员展开了基于内容的视频检索研究,即通过使用颜色、纹理、形状、运动以及音频等视频本身所具有的特征描述视频,从视频序列中抽取这些特征并对它们进行自动匹配,从而实现对视频内容的快速检索。目前,基于视频内容检索的研究已经取得了长足的进步,涉及到特征提取、视频结构化分析、视频摘要、关键帧选取、数据库设计和索引以及用户界面的研究和设计等多个领域。但由于受制于视频数据的复杂性以及语义鸿沟等问题的制约,目前的研究成果还不能很好的满足用户的需求,这一领域仍然存在很多挑战。本文的研究方向是视频内容的结构化分析,它是针对视频的无结构特性提出的,旨在提供对视频内容层次化的理解。一般来说,视频的结构模型从底层到高层,依次为帧、镜头、场景和视频。帧,是视频的基本组成单位。镜头,是由一个相机动作(如开/关)中的连续帧组成,它包含了一致的背景或者物体特定的活动。对视频进行镜头分割,是视频结构化分析的基础。但由于镜头本身并不包含语义信息,而且一个小时的视频可能包含很多镜头,因此很难直接基于镜头分割的结果进行视频分析。场景,是由一组语义相关的镜头组成,表达一个特定的主题,它是视频结构中的语义单元。因此,对视频进行场景分割,将为我们提供视频语义的理解,这将对实现电影摘要、电视节目分割等应用提供有力的支持。本文的研究重点是假定已经得到准确的镜头边界的基础上,研究视频的场景分割。我们在总结前人工作的基础上,对场景分割中两方面的问题,聚类个数难以确定以及过分依赖视频类型,进行了研究并提出了两种场景分割的方法。具体来讲,第一种方法利用流形学习理论获得视频的结构特征,然后用马尔科夫链蒙特卡罗方法(Markov chain Monte Carlo,MCMC)动态地进行模拟采样,通过寻找场景边界的最大后验概率分布,完成场景的分割。第二种方法,在考虑颜色特征相似度以及镜头时序关系的基础上,利用JSEG的思想挖掘视频的结构特征,计算视频的局部均一性。在此基础上,利用谱聚类的算法完成场景分割。由于两种方法本身可以自适应地反应出场景的结构特征,因此可以满足对不同视频类型的应用。另外,通过使用马尔科夫链蒙特卡罗方法和谱聚类的算法处理得到的结构特征,我们就可以自动地完成场景分割。针对提出的两种场景分割方法,分别在电影、运动、卡通等多种类型的视频数据上进行了实验。实验结果也验证了方法的有效性。我们还将视频结构化分析的思想引入到流媒体分发和用户VCR操作的研究领域。通过使用镜头分割和场景分割算法处理视频数据,我们不仅改变了流媒体分发的内容,更提供给用户层次化的理解方式,帮助他们更快地定位感兴趣的内容,在提高用户体验度的同时,大大降低了系统的负担。