论文部分内容阅读
图像分类是一种根据图像的视觉内容将其自动划分到预先定义好的不同语义类别的方法。它是计算机视觉领域中的一项重要任务,是场景识别、目标检测、图像检索、视频检索等视觉任务的基础。图像分类,不仅具有重要的研究意义,而且具有重要的应用价值,例如:基于图像分类的色情图片检测、疾病诊断,分别在互联网内容净化、医疗领域发挥着重要作用。图像分类的关键在于提取鲁棒性好、区分能力强的特征并选用合适的分类器对特征进行分类。 本文围绕着图像分类,分别从特征提取、分类方法两方面,进行了研究。主要取得了以下研究成果: (1)提出了一种稠密多路卷积神经网络 目前分类性能最好的卷积神经网络(CNN)是稠密网络(DenseNet),其精度受到其基本模块表达能力的限制。为了学习到分类精度更高的特征,本文针对DenseNet的基本模块作了改进和优化,提出稠密多路卷积神经网络(DenseXT),利用残差网络(ResNeXt)多路变换的优点增强DenseNet网络的表达能力,从而使该网络具有表达能力强、内部信息流动充分的特点。实验结果表明该网络能够以不到DenseNet50%的参数取得与DenseNet相当甚至更高的分类精度。 (2)提出了一种基于CNN特征的集成分类方法 传统集成学习方法,采取分而治之的策略,训练多个子分类器,具有较高的训练和测试效率,并且多个分类器之间互为补充,因而相对于全局分类器具有更高的识别精度。鉴于CNN具有语义特性,因此本文提出了基于CNN特征语义划分的集成方法。该方法根据CNN特征的每一个维度,将训练集划分成多个子集,在每个子集上训练分类器。为进一步提高训练和测试效率,我们采用线性SVM,替代传统的RBF核SVM作为子分类器。在ImageNet数据集上的实验表明:该方法相对于采用线性SVM作为子分类器的稀疏集成学习方法,识别精度相当,模型大小降低约20%;相对于采用RBF核SVM作为子分类器的稀疏集成学习方法,精度略低,但速度大幅加快,模型大小显著降低。 (3)构建了一个图像分类系统 在上述研究的基础上,将用于特征提取的稠密多路卷积神经网络和用于分类的基于CNN特征的集成分类方法结合起来,构建了一个图像分类系统。实验结果表明所设计的图像分类系统具有较高的分类精度。