论文部分内容阅读
人类的视觉处理能力能在复杂的场景中准确快速地对显著性目标和其他区域进行区分,这源于眼睛面对不同物体的反应不同。显著性检测是在人眼视觉注意机制的基础上,利用计算机模拟视觉注意机制,从而根据人眼对不同区域的不同感知来判断该区域是否为显著区域。显著性检测广泛地应用在图像方面,但计算视频的时空显著性是一个新兴而有挑战性的问题。视频显著检测的目的是逐帧检测一段视频中的显著目标,与图像显著性检测的不同如下:第一,视频显著性检测需要更多地考虑运动特征。第二,视频中的显著对象的运动线索给显著区域提供了线索,然而背景的运动给定位对象带来了困难,第三,视频中的对象运动有连续性,需要保证显著对象在全局时空上的一致性。视频显著性在许多应用中非常有价值,例如视频重构、视频对象跟踪和视频对象分割等领域。本文首先提出了基于简单帧选择的集成学习视频显著性检测算法。该算法首先对视频帧进行预处理,以像素级别进行聚类,使用一个138维特征描述符表示每个像素,然后使用gPb-owt-ucm方法对视频帧进行分层分割,计算视频帧聚类区域的相似度。接着本文提出一种衡量视频简单帧的排序得分标准,并对视频帧进行排序。最后为了保证简单帧的对象在整个视频中是通用的,构建一个能量函数用来获得真正可靠的简单帧。在获得简单帧后,基于初始显著图,得到了鲁棒的前景特征和前景标签,输入多核集成学习模型后得到最终显著图,并由运动特征在整个视频集上进行扩散,得到视频的最终显著结果。接着设计了一种自适应的时空结构化低秩矩阵分解视频显著性检测算法。该算法基于结构化低秩矩阵分解模型,对视频帧进行超像素分割,以超像素作为矩阵行,提取视频帧的58维时空特征作为列,以20帧一组进行低秩矩阵分解,帧内超像素以时空特征构建其空间关系,帧间以SIFT流及对应邻居构建时间关系,形成时空的树结构正则化项以及拉普拉斯正则化项。同时在低秩矩阵分解之前,设计一个基于外观相似度和背景静止度的自适应选择算法,最后使用ADM算法求解模型的稀疏化项从而得到最终显著图。最后,基于视频显著检测方法,本文提出一个视频分割模型,将视频对象分割设定为具有两个标签(前景和背景)的像素标注问题,并定义一个能量函数,用于标记所有的像素,其中包括:显著项、外观项、位置项、平滑项。根据能量函数使用图割法来计算最佳二进制标记,从而得到最终的分割结果。本文在SegTrackv2数据集上进行对比实验。通过实验比对发现,本文提出的视频显著性检测算法在数据集上取到更高的准确度,相比于传统算法,本文算法在PR曲线和F-measure值上都有较为明显的优势。同时本文将基于该算法的分割结果与其它分割算法对比,同样得到较高的精确度。