基于深度学习的图像分类方法研究

来源 :电子科技大学 | 被引量 : 5次 | 上传用户:delphiall
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像分类是计算机视觉领域的一个重要研究方向,随着近年来互联网和移动终端的飞速发展,各类社交网站中的图片数量正在以几何级数增长,然而这些图片的多样性和无序性决定了其中的有效信息难以被完整的获取。因此,利用图像分类技术将用户图片按照其类别的不同进行准确的分类,不论是对于企业还是对于用户来说,都有着重大的意义。近些年来图像分类技术通过对深度卷积神经网络的运用取得了长足的发展,然而其不足也依然存在。在当下这个移动终端逐渐代替PC终端,而智能化要求又不断提高的大环境下,简单的“语义级”的图片分类已经不足以满足用户的需求,因而更加细化的细粒度图像分类以及用于减少运行成本的网络压缩技术就成为了该领域中的重要研究方向。另外,随着近些年来Deep Fake事件的不断发酵,分类神经网络的安全问题已经到了迫在眉睫的地步,如何让计算机可以帮助我们识别经过修改的图片和视频成为了所有计算机视觉领域研究者们需要共同面对的问题。因此本文针对图像分类中分类准确率较低、分类模型计算复杂度较大以及分类网络安全性存在隐患这三大问题,从预处理算法、网络结构调整、网络压缩技术和对抗样本问题这四个角度进行了研究,并分别获得了相应的成果。本文主要研究内容和创新点如下:1.提出了名为“目标对齐”的图像预处理算法。在细粒度图像数据库中,类别间的差异往往非常细微,而同类别的图片则由于其目标姿态的不同反而有较大的类内差异性,这给网络模型的训练带来了很大的困难。本文研究了将细粒度图像数据库分为三个主要类别并分别进行特征点对齐的方法,采用了基于特征点合并的目标重定位、基于特征点空间关系的目标旋转、目标切割和尺度归一化这四个步骤,实现了“目标对齐”这一图像预处理算法,从而缓解了细粒度图像分类数据库中类内差异大而类间差异小这一问题,进而提升了多种基于深度学习的图像分类算法的分类准确率。2.提出了一种端到端的基于语义对齐的细粒度图像分类网络ASP-CNN。在当前的细粒度图像分类网络中,检测子网络传递到分类子网络的信息中只包含了局部特征点的位置信息,因而分类子网络对局部特征的提取结果会受到图片中目标姿态多样性的影响而产生过大的类内差异。本文提出了基于特征点空间位置关系的姿态对齐算法和基于方差的错误结果检测算法,实现了检测子网络中的局部区域对齐,配合上在分类子网络中采用的旋转目标区域池化的方法(RRo I pooling),ASP-CNN成功地在端到端的网络中实现了特征点周边区域的语义对齐,解决了由目标姿态多样性所引起的局部特征的类内差异过大的问题,使得分类子网络在特征提取的过程中可以获得更具有判别性的特征,进而取得了更高的分类准确率。3.提出了基于参数降维和深度压缩技术的轻量级细粒度图像分类网络。深度神经网络往往会带来极高的时间复杂度和空间复杂度,而这一问题在细粒度图像分类这样的需要多个神经网络进行配合的任务中尤为明显。本文基于所提出的基于K近邻的候选区域提取算法以及基于双流结构和1×1卷积层的分类子网络结构实现了网络参数的降维,而对卷积层和全连接层所采用的深度压缩技术,则实现了网络参数存储成本的压缩。通过上述两种方法的联合使用,完成了网络参数总量和存储方式上的双重压缩,大幅降低了细粒度图像分类算法所需的时间复杂度和空间复杂度。4.提出了一种双流结构的防御算法用于“对抗样本”的检测。对抗样本的存在为神经网络的安全使用带来了隐患,而如何应对对抗样本的威胁则是当下计算机视觉领域的一个重要课题。本文先通过神经网络可视化的方法,分析了对抗样本的工作原理;然后将其与当下许多研究者提出的防御体系总是被迅速破解这一问题相结合,分析了“数据量不足”假设,指出在当前的数据量环境下,无法在完整的Image Net数据库中实现高鲁棒性的防御体系;最后,凭借不同架构的神经网络在分类过程中所依赖的特征类型的不同,实现了一种双流结构的防御算法,获得了图像分类任务中对抗样本的精准检测,从而加强了神经网络的安全性能。
其他文献
管理会计是一门综合多种学科的边缘学科,它作为现代会计的一个分支,是现代企业管理的重要工具。随着经济的发展,企业管理发展的趋势是会计工作的重点由过去单纯的“资产计价,确定
目的探讨经尿道精囊镜技术治疗射精管梗阻性无精子症的可行性和有效性。方法分析我科自2007年1月至2009年7月采用经尿道精囊镜技术诊治射精管梗阻性无精子症患者21例的临床资
该文简要介绍了高校公文流转的内容,分析了基于网络的公文流转优势,并对基于网络的公文流转系统的设计提出了思路。
日语教学中引入认知语言学的知识有助于学生对日语的掌握。文章选取描述触觉体验过程的「感じル」句为例,着眼于其句义结构和句法框架,对参与人类触觉体验活动的要素及其语言
自由空间光通信(Free Space Optical Communication,FSO)是一种以激光作为信息载体、以大气作为信道的通信方式。它具有容量大、保密性好、抗干扰能力强、频率资源丰富等特点
高等职业教育以专业为龙头是学界的共识。高等职业院校依据其定位建设骨干专业群,形成集群效应,是壮大办学实力、增强核心竞争力的创新之举。从专业群的特点入手,在具体阐释
本论文主要研究的是解放战争时期辽宁地区的水利建设,时间界定是1945~1949年。这一时期是东北历史上的一个十分特殊的时期,东北光复伊始,国共两党便积极展开了对东北各地的争
在系统开发过程中,界面是系统与用户进行交互的重要渠道,为了在实现丰富动态的用户界面的同时提高代码编写的重用率,本文采用了ExtJS框架来实现用户界面设计,利用Ajax技术实
川西茶馆历史悠久,文化内涵丰富,此文在分析其茶馆文化特点的基础上,挖掘出了茶馆文化独特的旅游价值,并以成都茶馆为例,提出要实现川西茶馆文化的旅游价值,就应当围绕其娱乐
在后工业社会语境下,网络自制剧作为一种新型的网络文化景观已经出现在大众视野中,因其在人物塑造、内容主题及形式结构等方面都不可避免地携带着反深刻、反传统、反崇高等后