论文部分内容阅读
半监督视频物体分割(Semi-supervised Video Object Segmentation,VOS)问题主要研究的是给定目标物体在第一帧的分割标注,自动在后续帧中分割出该目标物体。VOS是多种广泛应用的基础任务,包括视频编辑,视频摘要和动作识别等等。近年来,一些基于视频的应用(Application,APP)的快速发展使得该领域得到重点的关注,近两年来持续吸引着学术界和工业界大量的研究者从事该领域的科学研究和工业应用。尽管通过使用一些语义分割的方法,VOS近年来取得了极大的进展,其仍然是一个很具有挑战性的任务。需要解决的问题包括:目标物体丢失、物体遮挡、巨大的形变、复杂的物体间交互和快速的移动等等。另外,由于VOS本身是一种半监督学习(Semi-supervised Learning,SSL)问题,导致本身可以提供的数据量非常少,进一步影响分割的性能。本论文主要针对VOS目前亟需解决的一些问题进行研究,围绕着类别无关的视频物体检测算法(Class-Agnostic Video Object Segmentation,CAVOS)进行研究,提出多种解决物体丢失、物体遮挡等问题的VOS算法。首先,我们将人工规则和深度神经网络结合提出了一种基于类别无关的非语义化重定位的视频物体分割算法(Class-Agnostic Video Object Segmentation without Semantic Re-Identification,CAVOS-NS),其重要思想是:使用一个带有遮挡检测算法的线性运动模型通过对物体运动轨迹的建模来获得当前帧中物体的边界框候选,并且结合分割结果细化CNN网络和时空迭代的分割结果细化模块来共同得到最终的精细化分割结果。其中遮挡检测算法使用了手工设计的检测条件来对物体是否被遮挡进行监测,在不同的数据集上需要分别进行设定,泛化能力不强。使用CAVOS-NS算法,我们取得了DAVIS 2018 test-challenge比赛的第三名,验证了类别无关的VOS算法的性能潜力。然后,我们提出了一种基于多假设空间的视频物体分割算法(Multiple Hypotheses Propagation for Video Object Segmentation,MHP-VOS),其主要思想是使用物体检测模型得到每一帧的所有物体候选框,之后将这些候选框经过门控制算法构建成以时间维度生长的假设空间树,再使用运动分数和分割前向传播分数对假设树的每一个分割路径进行打分,不断剪枝获取最优的路径。这种方法使用长期时间信息来进行延迟决策,以此进行最佳候选框的选择,代替了CAVOS-NS算法中的人工规则。大量实验表明,MHP-VOS算法取得了目前最好的视频物体分割性能,可以有效地解决多目标物体分割中物体丢失、遮挡等问题。