论文部分内容阅读
深度神经网络模型性能的不断提升在很大程度上归因于深度神经网络结构的不断优化和快速发展。长期以来,大多数经典的神经网络结构都是由人类专家手工设计的,然而设计神经网络结构是一项十分耗时耗力且依赖先验知识和准则的工作。近年来,传统人工设计的神经网络结构已难以满足各种实际应用场景和性能的需求。为了解决以上问题,许多前沿的研究工作开始关注通过算法自动设计(搜索)和优化神经网络结构,以减少人力和计算资源的消耗。然而,当前自动设计和优化神经网络结构领域还处于发展初期,仍存在许多瓶颈问题:比如搜索算法效率低,消耗计算资源多,可迁移性差等。针对这些问题,本文的主要研究工作围绕深度卷积神经网络结构的优化方法展开,从神经网络结构搜索和神经网络模型剪枝两个方面着手进行了一系列方法及其应用研究,并取得了以下研究成果:(1)针对可微分神经网络结构搜索方法中存在的问题和局限性,包括搜索空间灵活性较差、模型崩溃现象、搜索-评估相关性低等,本文从搜索空间和搜索策略上分析了这些问题产生的原因,并提出了基于可微分退火和动态剪枝的神经网络结构搜索框架。该框架首先改进了基于单元格的局部搜索空间,设计了一种弹性密集连接的全局搜索空间,它将结构的深度表征权重与候选操作的权重解耦,避免了跳跃连接聚集的现象。然后使用了基于组退火和阈值剪枝的渐进式搜索策略,该策略能够使结构参数随着搜索的进行而逐渐逼近二元分布,而权重较低的劣势操作被逐步剪枝,提高了搜索过程的稳定性并减少了搜索时间代价。为了提高搜索结构的计算资源适应能力,本文提出了一种基于动态规划的通道剪枝方法,它通过在搜索过程中逐步修剪冗余通道,使得最终的网络结构能够严格地满足给定的资源约束。(2)针对基于单次训练的结构搜索框架中存在的难点和关键问题,比如超网络的训练过程不稳定、训练效率较低、单路径搜索空间中的最优子结构性能较低等,本文提出了一个统一的基于多路径训练的神经网络结构搜索方法。该方法采用了二阶段的基于单次训练的结构搜索框架,将超网络训练与子网络结构搜索分离成两个独立的步骤,具有良好的灵活性和通用性。然后本文改进了超网络中批标准化层的结构,提出了一种混合批标准化层结构,使之适用于多路径超网络的训练,提高了训练过程的有效性和稳定性。为了提高超网络训练效率,本文提出了基于多样性分数的搜索空间收缩策略,该策略通过引导超网络在训练期间逐步淘汰劣势的候选操作组合,从而逐步减小搜索空间,提高了搜索效率和最终网络结构的性能。(3)针对二阶段的基于单次训练的结构搜索框架中存在的另外一个关键问题,即在权重共享的策略下,子网络结构性能的真实排序往往并未得到很好的保留,从而将误导搜索过程中的子网络性能评估,使其难以有效地搜索到高精度的子网络结构。本文首先分析了超网络的训练过程,并将这种现象出现的原因归结于超网络训练过程中的一致性偏移,包括特征偏移和参数偏移。然后提出了一种基于一致性损失和时序集成的神经网络结构搜索框架,该框架构建了两个超网络结构,即教师超网络和学生超网络,通过引入基于交叉路径学习的一致性损失函数,有效地提高了超网络的泛化能力,减少了特征偏移现象。此外,教师超网络的权重是通过计算学生超网络的滑动平均值更新的,集成了历史权重信息,因此能够有效地减少超网络训练过程中的参数偏移现象,提高超网络训练过程的稳定性。(4)针对传统神经网络剪枝方法存在的问题和局限性,包括人工设计重要性评价指标时间成本高、可扩展性差,迭代式模型剪枝计算复杂度高、效率低等,结合神经网络结构搜索的思想,本文提出了基于权重共享和进化算法的自动化剪枝框架,该框架通过通道分组和随机通道采样的方式训练了一个可伸缩的超网络,该超网络中不同通道配置的子网络可以直接继承对应的权重,无需重新训练即可评估不同宽度的子网络精度,从而避免了迭代剪枝和评估通道重要性的步骤,提高了剪枝效率。在此基础上,本文使用多目标进化搜索方法实现了自动化剪枝,使得剪枝网络能够在分类精度和资源消耗(如参数量、FLOPs、推理时延等)之间实现即时的平衡。(5)在以上提出的卷积神经网络结构搜索和模型剪枝方法的基础上,本文进一步将这些方法推广应用到了真实场景中的图像识别任务。具体来说,本文研究了如何自动设计遥感图像识别任务中的骨干网络结构,探索了神经网络结构优化方法如何在实际应用场景中发挥作用并产生影响。为了突破基于自然图像设计的骨干网络在遥感图像识别任务中的性能瓶颈,并将神经网络结构搜索方法应用于遥感图像识别任务,本文提出了遥感图像识别任务中骨干网络结构的新设计范式,构建了基于单次训练和权重共享的神经网络结构搜索框架,该框架包含超网络预训练、微调训练和骨干网络结构搜索三个阶段,同时结合了前文提出的超网络训练策略,提高了训练稳定性和最优骨干网络的性能,并能够迁移到不同的遥感图像识别任务。另外,本文还通过合并多个公开的遥感图像数据集构建了一个大规模数据集,缓解了预训练数据量不足的问题并提高了超网络在遥感图像数据上的泛化能力。