论文部分内容阅读
在弱监督条件下的图像和视频协同分割与定位旨在利用少量监督信息挖掘图像与视频中存在的共同对象的问题。协同分割与定位方法可以降低对于类标信息的依赖,减轻人工标注的负担。作为一个新兴的研究领域,图像和视频协同分割和定位正逐渐受到广泛关注并不断发展。许多学者发表了相关论文。然而,这个领域仍然存在大量问题有待解决,例如光照条件的不同,尺寸和方向的差异,障碍物和遮挡,以及提高算法效率和精度等。因此,基于弱监督学习的思想,本文针对上述问题,建立了了人眼定位,图像协同分割和视频协同分割的相关理夜夜经并设计了相关算法框架,给出了全面具体的综述,取得了国际同行认可的成果。本文主要贡献如下:1.本文提出了具有旋转不变特性的人眼定位算法,实现了在人眼区域,人脸图像和全身人像中的人眼定位。人眼定位旨在从人脸图像中同时定位双眼精确位置,从而辅助人脸配准人脸识别等相关技术。然而在实际场景中,人眼和人脸图像可能存在任意的旋转角度。根据目标检测的三个主要步骤:目标表示,分类器设计,检测与定位策略,本方法首先从少量人眼样本中学习基于特征表示字典,其次运用基于稀疏表示的分类器结合一种类金字塔检测策略生成人眼位置热度图,最后利用先验知识提高定位精度。实验结果表明该方法能够在任意旋转下精确定位人眼,具有良好的旋转不变特性。2.本文提出一种基于交互学习的协同分割框架并提出了两种算法。图像协同分割旨在同时勾勒出多幅同类图像中的共同存在的目标的精确到像素级的轮廓。大多数现有图像协同分割算法主要关注共存目标的两种特性:显著性和相似性,但往往仅侧重于二者之一。(a)首先,在交互学习框架下,本文提出了一种基于结构稀疏和判别学习的协同分割方法(简称为OUR1)。首先针对共存目标的稀疏性,设计了基于加权结构稀疏的低秩矩阵分解算法。其次针对共存目标的相似性,设计了基于逻辑回归的判别学习算法。本方法利用结构稀疏的权值和逻辑回归参数之间的交替优化完成稀疏性和相似性的交互学习。同时,大多数加权结构稀疏算法直接利用先验知识对权值赋值,本文提出了对于结构稀疏权值的交互学习算法,从而获得具有目标导向性的著性结果,而非基于经验值的显著性。(b)其次,为了进一步充分挖掘图像结构种的几何信息,本文提出了一种基于结构稀疏和树图匹配的树图切方法实现基于交互学习的图像协同分割(简称为OUR2)。这种方法通过结合基于结构稀疏的显著性分析和基于树图匹配的相似性判定于树图切框架下,完成显著性和相似性的交互学习。相比于OUR1,基于树结构的图匹配深度挖掘了共存目标间的相关性。同时,本方法还在图切框架种引入了基于图像纹理和图像邻域的约束项,从而进一步提高了协同分割的准确性。实验证明本文提出的以上两种方法,由于考虑了显著性和相似性之间的交互学习,在公共数据库上取得了更为精准的协同分割结果。其中,OUR2算法在图切框架下充分利用了图片结构信息,获得了优于OUR1的分割结果。3.本文提出了一种基于交互学习的协同分割统一优化方法(OUR3),进一步提高协同分割算法的效率和对于目标的适应性。该方法利用拉普拉斯矩阵将基于树结构稀疏的显著性检测方法和基于树图匹配的相似性评估方法整合于一个统一的框架下,采用增广拉格朗日乘子和平滑近端梯度来优化求解,获得共存目标的分割结果。同时,本文还提出了两种策略:激活点策略和树重构策略。激活点策略基于目标导向的显著性自适应地选择关键节点,从而压缩搜索空间,提高算法效率。树重构策略通过交互学习结果调整图片树结构,从而保持目标完整性,提高分割精度。实验证明,这种方法能够提高算法效率,同时获得更为精确的协同分割结果。4.本文提出了一种基于深度特征的视频协同分割,研究在弱监督情况下对预训练的深度网络进行再利用。该方法首先利用训练好的用于图像语义分割的条件随机场递归网络对视频图像进行特征提取,试图将深度特征的优良性能引入视频协同分割的系统中。然后,将深度特征运用于基于聚类的协同分割框架中,通过分析帧内,帧间以及视频之间的先关性给出共存目标的初步分割。最后再次利用训练好的条件随机场递归网络,通过利用初步分割结果对相关网络层的加权,进一步提高分割结果的精度。实验结果展示了深度学习方法同视频协同分割结合的可能性。