高效精简的细粒度图像识别模型研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:szlyq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细粒度图像识别是计算机视觉领域一项极具挑战性的研究课题。受益于近些年深度卷积神经网络的发展,细粒度图像识别也获得了极大的突破。目前,基于深度卷积神经网络与双线性汇合的方法已经成为细粒度图像领域的主流方法。然而,这两者都需要很大的计算资源和存储资源开销,这使得这些模型难以应用部署在资源受限的现实任务中。因此,研究高效精简的细粒度图像识别模型极具科学研究意义与实际应用价值。本文从精简骨干网络和设计高效双线性特征入手,研究高效精简的细粒度图像识别模型,主要工作如下:由于深度卷积网络由相当多的卷积层和其他线性/非线性层堆叠而成,其本身就需要大量的资源开销。而目前主流的精简细粒度模型主要都关注于设计高效的双线性汇合结构,很少关注什么样的骨干网络适合于精简的细粒度模型。因此,本文在目前优秀的精简网络Thi Net基础上提出截断Thi Net(Truncated Thi Net),充分挖掘了骨干网络的加速潜力。针对双线性汇合带来的资源开销问题,本文提出了全局权重池化(Global Weighted Pooling),利用自注意力机制编码二阶信息,从而得到高效精简的细粒度特征。实验发现,本文提出的方法与目前优秀的轻量级网络Mobile Net V2相比,在准确率相当的情况下,在手机端快约1.5倍,在计算机GPU上快约4倍,在计算机CPU上快约2倍。分析指出,本文提出的全局权重池化与目前大部分主流精简双线性汇合方法相比,需要更少的额外计算开销和存储开销。另外,实验表明,本文提出的模型在配备有AI协处理器的移动终端上也能很好的工作,某种程度上说明本文提出的方法能够很好适应未来移动AI应用发展的趋势。人脸识别任务也属于细粒度图像识别任务,但由于其数据复杂性使得该任务比一般细粒度任务更加困难。因此,目前主流的人脸识别模型多使用特别设计的损失函数提高性能,使得深度人脸识别模型的性能瓶颈仅出现在骨干网络。针对这一点,本文提出沙盒卷积模块(Sandbox-shaped Convolutional Block)来构建高效精简的深度人脸模型。该方法使用抑制-扩张操作对,从而构造精简卷积模块,其中抑制操作降低模块内计算复杂度,扩张操作减少模块内信息损失。实验表明,在目前优秀的深度人脸模型上应用该方法,在3个标准人脸测试集上准确率下降不超过0.1%,且速度有显著提升。
其他文献
软件缺陷预测能够在项目开发中预测出可能存在缺陷的软件模块并对其进行重点测试。当前,软件缺陷预测根据预测目标主要包括分类预测和回归预测。其中,分类预测能够判断软件模
近年来,开源软件包管理成为软件产品重用的一种普遍的方式,尤其是在Linux发行版操作系统领域。其中,软件升级问题是软件包管理工具必须要解决的关键挑战之一。软件升级问题旨
玻璃生产属于高能耗产业,其中玻璃熔窑作为生产环节的核心热工设备,其能源消耗量是巨大的。若窑炉因发生异常造成玻璃制品合格率下降,将会导致能源直接损失。本文的研究对象
未来网络的物理层将提供具有多种载波间隔、载波数配置的调制波形,允许不同业务采用不同波形完成非正交接入。一种可行的解决方案是将系统带宽划分为若干服务子带,每个服务子
2019年5月24日,由中国人民银行出资100亿元人民币设立的存款保险基金管理有限责任公司成立,标志着我国正式建立了独立的存款保险基金管理机构。我国自存款保险制度建立以来,
近年来,泰国汉语学习者“低龄化”趋势日渐明显,儿童学习者所占比重不断增加。为契合泰国“在玩中学”的教育理念,我们将多元智能理论与汉语综合课相结合,在充分发挥学生各项
现代工业的不断发展对控制系统建模、性能标准等提出了更高的要求。非线性/随机系统因其在工业过程中的重要应用,成为了控制理论界的研究热点。另一方面,有限时间控制也是控
太赫兹光谱是太赫兹应用中极为重要的部分,被广泛应用于爆炸物检测、物质成分识别、医学诊断以及产品质量控制等众多领域。研究太赫兹光谱仪的体积小型化、测量快速精准对于
随着移动互联网的发展,人们与互联网的关系变的更加的密切了。越来越多的人开始抛弃原始获取消息的渠道,这给广告的发展提供了新的挑战和机遇。广告顾名思义即广而告之,以报
脑机接口是在人脑与计算机或其它设备之间建立的直接交流和控制通道,通过这种通道,人就可以直接通过意识来表达想法或操纵设备,而不需要语言或动作。脑机接口系统可以扩展正