论文部分内容阅读
图像分类是计算机视觉领域的一个重要研究方向,随着近年来互联网和移动终端的飞速发展,各类社交网站中的图片数量正在以几何级数增长,然而这些图片的多样性和无序性决定了其中的有效信息难以被完整的获取。因此,利用图像分类技术将用户图片按照其类别的不同进行准确的分类,不论是对于企业还是对于用户来说,都有着重大的意义。近些年来图像分类技术通过对深度卷积神经网络的运用取得了长足的发展,然而其不足也依然存在。在当下这个移动终端逐渐代替PC终端,而智能化要求又不断提高的大环境下,简单的“语义级”的图片分类已经不足以满足用户的需求,因而更加细化的细粒度图像分类以及用于减少运行成本的网络压缩技术就成为了该领域中的重要研究方向。另外,随着近些年来Deep Fake事件的不断发酵,分类神经网络的安全问题已经到了迫在眉睫的地步,如何让计算机可以帮助我们识别经过修改的图片和视频成为了所有计算机视觉领域研究者们需要共同面对的问题。因此本文针对图像分类中分类准确率较低、分类模型计算复杂度较大以及分类网络安全性存在隐患这三大问题,从预处理算法、网络结构调整、网络压缩技术和对抗样本问题这四个角度进行了研究,并分别获得了相应的成果。本文主要研究内容和创新点如下:1.提出了名为“目标对齐”的图像预处理算法。在细粒度图像数据库中,类别间的差异往往非常细微,而同类别的图片则由于其目标姿态的不同反而有较大的类内差异性,这给网络模型的训练带来了很大的困难。本文研究了将细粒度图像数据库分为三个主要类别并分别进行特征点对齐的方法,采用了基于特征点合并的目标重定位、基于特征点空间关系的目标旋转、目标切割和尺度归一化这四个步骤,实现了“目标对齐”这一图像预处理算法,从而缓解了细粒度图像分类数据库中类内差异大而类间差异小这一问题,进而提升了多种基于深度学习的图像分类算法的分类准确率。2.提出了一种端到端的基于语义对齐的细粒度图像分类网络ASP-CNN。在当前的细粒度图像分类网络中,检测子网络传递到分类子网络的信息中只包含了局部特征点的位置信息,因而分类子网络对局部特征的提取结果会受到图片中目标姿态多样性的影响而产生过大的类内差异。本文提出了基于特征点空间位置关系的姿态对齐算法和基于方差的错误结果检测算法,实现了检测子网络中的局部区域对齐,配合上在分类子网络中采用的旋转目标区域池化的方法(RRo I pooling),ASP-CNN成功地在端到端的网络中实现了特征点周边区域的语义对齐,解决了由目标姿态多样性所引起的局部特征的类内差异过大的问题,使得分类子网络在特征提取的过程中可以获得更具有判别性的特征,进而取得了更高的分类准确率。3.提出了基于参数降维和深度压缩技术的轻量级细粒度图像分类网络。深度神经网络往往会带来极高的时间复杂度和空间复杂度,而这一问题在细粒度图像分类这样的需要多个神经网络进行配合的任务中尤为明显。本文基于所提出的基于K近邻的候选区域提取算法以及基于双流结构和1×1卷积层的分类子网络结构实现了网络参数的降维,而对卷积层和全连接层所采用的深度压缩技术,则实现了网络参数存储成本的压缩。通过上述两种方法的联合使用,完成了网络参数总量和存储方式上的双重压缩,大幅降低了细粒度图像分类算法所需的时间复杂度和空间复杂度。4.提出了一种双流结构的防御算法用于“对抗样本”的检测。对抗样本的存在为神经网络的安全使用带来了隐患,而如何应对对抗样本的威胁则是当下计算机视觉领域的一个重要课题。本文先通过神经网络可视化的方法,分析了对抗样本的工作原理;然后将其与当下许多研究者提出的防御体系总是被迅速破解这一问题相结合,分析了“数据量不足”假设,指出在当前的数据量环境下,无法在完整的Image Net数据库中实现高鲁棒性的防御体系;最后,凭借不同架构的神经网络在分类过程中所依赖的特征类型的不同,实现了一种双流结构的防御算法,获得了图像分类任务中对抗样本的精准检测,从而加强了神经网络的安全性能。