论文部分内容阅读
深度卷积神经网络模型可以从优化的角度进行研究,设计合理的模型和求解算法是优化问题的关键。本文主要从数据筛选方式和网络结构设计两方面尝试对深度卷积神经网络方法进行优化。针对数据筛选的优化方式,主要考虑了基于梯度和基于主动增量学习两种方案。梯度筛选优化方案主要侧重于算法层面,通过预训练模型在每个数据上反传回的梯度量级来衡量数据的重要程度。主动增量学习侧重从模型预测结果方面设计筛选标准,通过熵来评估候选样本的准确性,通过散度信息评估样本的稳定性,再将两者加权组合得到最终的筛选指标。实验证明,基于梯度的筛选方案不仅能够获得稳定的提高模型性能,还能够发现数据中的冗余现象。另一方面,本文发现主动筛选方案相比随机筛选能够在使用一半数据量的情况下取得相当的训练效果。针对网络结构的优化,主要考虑了在分类问题中添加跳层连接的多路径结构和语义分割问题中的多尺度损失函数结构。从实验结果上看跳层连接结构类似于模型的集成学习方案,通过多个长短不同的小网络路径(弱分类器)集成得到一个性能更好的大网络(强分类器)。这种多路径的分析方法为梯度的相关性分析提供了依据,在假设网络的每一层满足激活神经元占总神经元半数的情况下,证明了加入了批量正则化的残差网络可以使得层间的梯度相关性由指数衰减变成了亚线性衰减,这对网络整体结构的稳定是有益的。考虑到深度网络不同层通常会学习不同的特征,本文提出了多尺度损失函数的概念,在每个尺度对特征提取的效果进行评估。同时对比说明了这种深度多尺度方案与基于马尔可夫随机场的序列最大后验模型的分割思想类似。另一方面,结合最新的深度学习理论研究方法,发现多重网络中的V-cycle模式与语义分割的Unet方案在结构上很相似,本文详细对比了V-cycle和简化的Unet结构。深度学习的理论解释尚不完善,大部分深度学习结构需要在大量的人工调参才能取得好的效果,本文的工作为从理论方面解释深度学习提供了一些思路。