论文部分内容阅读
场景分类就是利用已知的语义信息在场景库上自动标注图像,根据图像标注的内容判断图像所属类别,它是图像理解一个重要的研究方向。近些年,卷积神经网络(CNN)以其局部权值共享的特殊结构在语音识别和图像处理等方面得到了迅速发展,特别是大型图像处理领域,表现更为出色。因此,基于CNN的分类算法已成为场景分类的主流算法。然而,在CNN框架上,网络的收敛速度、是否存在过拟合仍是提高场景分类精度的关键问题之一。同时,如何提高CNN学习的特征的独立性、局部性和可重复性,降低特征的维度也是一个重要问题。本文在分析现有文献的基础上,对CNN的自适应学习率、通过CNN学习的特征分析进行了研究,主要工作如下:(1)在CNN的框架上提出一种能够自适应调节网络学习率的算法,并将其应用在场景分类。基于CNN的场景分类方法已取得很好的效果,但当训练数据较少时,由于室内场景等复杂场景的相似性、复杂度高、难以识别,容易造成网络训练次数多,收敛速度慢,导致过拟合状态。为了消除此影响,本章算法根据网络训练中误差函数的变化自适应调节学习率,当误差函数变化较小时,保持批次的学习率不变,误差函数变化加大时,学习率的变化与误差函数的改变成反比;同时根据网络输出结果改变实验样本的训练方式,着重训练识别不准确的图像,减小网络陷入过拟合状态的概率,进一步提高网络识别率。(2)在CNN学习图像特征的基础上,提出了基于Fisher特征分析的场景分类算法。CNN通过网络的输出层学习了丰富的高维中级图像描述符,但直接计算高维特征描述符的相似性进行图像分类是低效的。为了减少特征匹配的时间,提高相似性描述符匹配的准确性,本章算法首先利用CNN对训练样本进行监督训练;接着在全连接层和输出层之间增加一个低维的隐含层微调网络,以学习图像低维的特征;然后针对图像类间特征描述符相似特点,采用判别式的Fisher特征分析进行图像分类,增强样本特征之间的独立性。(3)在Scene-15,Cifar-10场景数据集进行实验,并与当前主流方法进行比较。实验结果证明本文提出的自适应学习率的方法改善了神经网络的收敛性并有效提高了分类精度,特别是室内场景等特征复杂的分类精度。基于Fisher特征分析的图像分类算法降低了时间消耗,并提高了分类精度。