论文部分内容阅读
自20世纪90年代以来,随着数字技术和互联网的发展,数字视频的获取和传播变得越来越容易,如何从浩如烟海的视频数据中找到自己需要的内容已经成为当前研究的一个热点。基于内容的视频检索技术就是为了满足这个需求而发展起来的。视觉心理学研究表明,人类视觉具有快速搜索感兴趣目标的能力,一段视频中出现的许多目标中只有少数几个能够引起人类的注意,人类视觉系统就是利用这些显著目标来判断不同视频之间的相似程度,然而现有的视频检索技术多采用基于关键帧的方法,一幅关键帧中往往还包含一些不引人注意的目标,这些目标参与检索必然造成检索准确率的下降。为此,本文试图将视觉注意机制运用到视频检索中,使得与关键帧算法相比,视频检索更加具有针对性,准确率更高。本文提出了一个针对视频镜头的显著区域提取模型。该模型分为空间显著区域提取和时间显著区域提取两部分,在空间显著区域提取部分,针对经典的Itti模型在确定显著区域轮廓方面的局限性,本文提出一个改进的空间显著区域提取算法,该算法分析每个像素点与其它像素点在颜色、纹理、形状三方面的差异,得到颜色、纹理、形状三幅显著图,通过线性加权的方式融合为空间显著图,最后对空间显著图进行分割,提取出静态显著目标,实验表明,该算法提取的显著区域轮廓的准确性较高;在时间显著区域提取部分,针对光流法无法分析低纹理区域运动信息的不足,本文提出分析视频片段中的Harris角点运动轨迹的算法,提取出显著Harris角点,最后采用Snake轮廓模型,得到显著区域的准确轮廓,作为空间显著区域。实验表明,该算法能够克服低纹理区域对运动分析的影响,取得了优于光流法的效果。本文设计并实现了一个基于视觉显著的视频镜头检索实验平台,以视频镜头显著区域的颜色和形状为特征,通过相似性计算,检索与所提交的视频镜头相关的视频,实验表明,本文算法在查准率和查全率两方面优于传统的关键帧检索算法。