论文部分内容阅读
计算机视觉是当今人工智能领域中极为热门的研究方向,而静态图像和动态视频作为视觉媒介中最为常见且重要的两种形式,对其包含的语义类别进行正确有效地分割,既是后续目标跟踪、行人车辆再识别等科研方向的基础,也是无人机定位、自动驾驶等实际应用的基石。
语义分割旨在对给定的静态图像或者动态视频序列每一帧图像中的像素点进行分类标注,本文在对现有针对图像及视频的语义分割方法进行调研及复现的基础上,对现有开源方法中存在的不足及可改进方向进行了总结与分析。现有的图像语义分割模型大多依然依赖于人工设计的像素级标注,同时对于部分小样本类别难以正确分割。而现有的视频语义分割模型,由于视频的时间连续性和物体运动性,往往很难同时保证分割方法的精准度和实时性,因而难以被广泛应用。针对以上问题,本文分别提出一种图像语义分割模型和一种视频语义分割模型。
基于迁移学习和生成对抗网络的思想,本文提出了一种基于类别信息和半监督学习的跨数据域图像语义分割模型,通过改变传统基于双线性插值的上采样方法以及此阶段损失函数的设计,提出一种新的基于监督学习的源域数据训练及分割方法,同时结合类别分布信息,利用生成对抗网络的思想进行跨域分割,实现了对无标注目标域数据的有效分割。在分别以GTA5和SYNTHIA虚拟数据集为源域数据,以Cityscapes为目标域数据的实验中,本文方法的分割精准度可达43.7%和41.6%,与先前方法的结果均值相比,结果提高约6个百分点。
在对图像进行有效处理基础上,结合光流场可以表征视频序列中物体运动性的特点,本文提出了一种融合类别特征信息与光流运动变换的双流半监督视频语义分割方法。通过结合视频帧深层特征的相似性和浅层特征的差异性,利用深度神经网络对视频帧图像进行特征提取,并结合类别信息和先前帧进行预分割,又融合光流对物体运动状态的反映,在保证算法实时性的基础上,对视频中显著类别或全景语义的分割结果精准度进行了提升。本文分割方法在DAVIS2017和YoutubeVOS视频对象分割数据集的平均精准度可达72.1%和68.3%,对于视频全景分割数据集CamVid和Cityscapes的平均精准度可达48.6%和53.2%。
语义分割旨在对给定的静态图像或者动态视频序列每一帧图像中的像素点进行分类标注,本文在对现有针对图像及视频的语义分割方法进行调研及复现的基础上,对现有开源方法中存在的不足及可改进方向进行了总结与分析。现有的图像语义分割模型大多依然依赖于人工设计的像素级标注,同时对于部分小样本类别难以正确分割。而现有的视频语义分割模型,由于视频的时间连续性和物体运动性,往往很难同时保证分割方法的精准度和实时性,因而难以被广泛应用。针对以上问题,本文分别提出一种图像语义分割模型和一种视频语义分割模型。
基于迁移学习和生成对抗网络的思想,本文提出了一种基于类别信息和半监督学习的跨数据域图像语义分割模型,通过改变传统基于双线性插值的上采样方法以及此阶段损失函数的设计,提出一种新的基于监督学习的源域数据训练及分割方法,同时结合类别分布信息,利用生成对抗网络的思想进行跨域分割,实现了对无标注目标域数据的有效分割。在分别以GTA5和SYNTHIA虚拟数据集为源域数据,以Cityscapes为目标域数据的实验中,本文方法的分割精准度可达43.7%和41.6%,与先前方法的结果均值相比,结果提高约6个百分点。
在对图像进行有效处理基础上,结合光流场可以表征视频序列中物体运动性的特点,本文提出了一种融合类别特征信息与光流运动变换的双流半监督视频语义分割方法。通过结合视频帧深层特征的相似性和浅层特征的差异性,利用深度神经网络对视频帧图像进行特征提取,并结合类别信息和先前帧进行预分割,又融合光流对物体运动状态的反映,在保证算法实时性的基础上,对视频中显著类别或全景语义的分割结果精准度进行了提升。本文分割方法在DAVIS2017和YoutubeVOS视频对象分割数据集的平均精准度可达72.1%和68.3%,对于视频全景分割数据集CamVid和Cityscapes的平均精准度可达48.6%和53.2%。