论文部分内容阅读
“深度神经网络”是近年来在大数据和图形处理单元(Graphical Processing Unit,GPU)两股力量的推动下再次兴起的一个研究领域。当下火热的“深度学习”,其本质便是深度神经网络的理论和应用研究。深度神经网络自2012年至今,已在图像分类、物体检测、图像分割等诸多计算机视觉的重要领域取得了巨大的成功。本文重点关注计算机视觉中两个重要的问题:物体分割和图像分类,并应用深度神经网络对它们进行求解。 本文围绕所关注的两个问题,主要贡献如下: 1.在物体分割中,本文提出了一种基于深度神经网络的端到端物体分割方法; 物体分割是图像分割的一个特例,指将图像分割为“物体”(前景)和“非物体”(背景)区域(具体的“物体”取决于分割问题本身:如人体分割的物体便是人体区域)。传统的物体分割方法通常包含前背景建模与模型求解等步骤:由于包含多个分离的步骤,因此通常速度较慢;同时也由于各步骤间的耦合损失,影响了分割的精度。本文基于上述考虑,提出了“深度回归”的端到端物体分割方法,将物体分割纳入深度神经网络的框架:通过网络整体训练,有效避免了传统方法的耦合损失;同时深度神经网络端到端的前向传播,也大大提升了物体分割的速度。 2.在图像分类中,本文探究了深度神经网络在特定领域图像分类上的应用; 近年来,深度神经网络在通用图像分类中已经取得了巨大的成功。本文所关注的特定领域图像分类,与通用图像分类相比,图像均属于同一个大类,需要将图像分为该大类下的不同子类。特定领域图像分类相比通用图像分类具有更直接的应用价值,同时也因为类间差异的减小而更具有挑战性。本文基于深度神经网络,在服饰和车辆两个特定领域进行了分类实验,并通过对实验结果的分析探究了深度神经网络对特定领域图像分类上存在的问题的鲁棒性。 此外,为了获得特定领域图像的分类数据,本文开发了一个服务于图像分类的半自动数据标注系统:该系统基于一个初始弱模型的预测结果,先由标注者筛选出每个类别中预测错误的图像,然后对这部分图像重新分配标签。本文的半自动数据标注系统在标注方法和系统界面的设计上都有效地降低了标注的难度,有助于提升标注的速度和精度。