论文部分内容阅读
对特定场景中的目标进行识别作为图像理解领域的一个主要研究方向,具有重要的理论研究价值和应用场景。现实世界中的目标具有多变性,比如尺度变化、旋转、光照、物体遮挡等,复杂场景使得机器视觉系统中的目标识别更加困难,而且在应用过程中,人类构建的特征往往都是基于任务的,有一定的盲目性和片面性,所以当前人们研究的热点,主要集中在如何让机器具备人类视觉,能够快速定位目标方面。本文通过对生物科学的最新研究成果进行分析,受到灵长类动物视觉神经系统的启发,详细对HMAX模型和卷积神经网络模型的结构进行阐述,找到模型与生物视觉系统模型的生物功能联系,以生物启示的方法来指导场景中的目标识别,引入更能刻画目标本质特征的深度学习模型。而卷积神经网络作为深度学习模型的一种,能直接从灰度图像学习出抽象的高级特征,具有强大的图像分类能力,但是在特征组合过程依然存在着使重要特征稀疏的问题,对此,通过对卷积层卷积运算过程的改进,解决特征组合过程中因为卷积多个输入特征图而使重要特征稀疏的问题。将改进后的卷积神经网络应用在手写数字数据中,与主流的分类方法进行比较,结果表明改进后的卷积神经网络准确率较高。 论文的研究内容主要包括: (1)概述灵长类动物视觉皮层感知机制,通过分析脑科学等当前的一些新的研究成果,作为HMAX模型及卷积神经网络模型的生物理论基础支撑,寻找模型生物功能联系。 (2)综述特征选择方法,对特征的提取及描述作简单介绍,对现有的人类构建特征做分析,指出构建特征必须基于人类先验知识以及对于不同任务构建特征的盲目性。以此引出深度学习在提取更本质特征方面的优势及意义。 (3)深入研究深度学习中的卷积神经网络理论,分析卷积神经网络的层次结构,在视觉系统及卷积神经网络中寻找共同点,作为卷积神经理论的生物启发依据。结合HMAX模型子采样层max-pooling机制的优势,对卷积神经网络子采样层进行修改,解决深度学习运算量大的问题,减少层间计算复杂性和增强平移不变性。 (4)构建稀疏卷积神经网络,通过卷积神经网络在训练过程中学习特征图的组合,让网络智能挑选特征图作为下一层的输入,主要是在卷积运算前引入稀疏规则限制,让算法自动选取部分前一层特征作为输入。解决特征组合过程中因为卷积多个输入特征图而使重要特征稀疏的问题。 (5)将改进的卷积神经网络应用在手写体数字识别上。并与原来的卷积神经网络及其它主流分类算法进行对比验证,分析结果。