基于深度稀疏表示的图像识别方法

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:a361583800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大规模、高维度的图像分类任务,基于人工设计的特征提取算法很难快速准确的对图像进行识别。基于数据的特征学习方法,特别是深度学习,能够充分发挥并行计算架构的优势,从大量数据中提取分布式表示或稀疏表示实现特征重用,获得更高的识别准确率。但实际应用中,大量无标签图像数据更易获取,对这些数据进行标定仍需要消耗大量人力,因此,无监督特征学习方法成为了当前研究的热点。  论文使用半监督及无监督特征提取方法训练神经网络提取稀疏特征表示,从而进一步提高算法在识别任务中的性能。首先,针对无监督算法提取特征判别能力较差的问题,提出了任务驱动的预测稀疏分解(PSD: Predictive SparseDecomposition)算法。而后,我们基于无监督特征学习改善了聚类算法。针对特征表示维度过高不易聚类的问题,提出了深度稀疏表示的对偶性,使用二部图分割方法来发现特征表示中的抽象概念。最后将深度神经网络应用于车型识别上,分析研究不同分类依据及网络结构对监督训练神经网络识别性能的影响。进而提出将基于深度稀疏表示的聚类算法应用于中层视元挖掘,实现了准确、鲁棒的车型精细分类算法。论文将包含以下工作和贡献:  1.受与类别信息无关因素的影响,无监督方法不能提取有效的特征表示来提高后续分类任务的准确性。针对这一问题,提出了基于任务驱动字典学习的预测稀疏分解算法,用半监督特征提取算法对神经网络进行预训练。理论证明了此模型可通过梯度下降法进行优化。在训练过程中,稀疏正则选出与输入信号最相关的基向量进行训练,有效防止过拟合。实验验证该算法所产生的特征表示不仅能准确重建输入信号,而且具有很强的识别能力。有效的特征表示使精调后的神经网络达到更高的识别准确度,在MNIST数据集上的识别误差从2.04%下降至1.98%。  2.由于高维特征表示难以聚类,大量聚类算法仍依赖于人工设计的特征提取算法。针对这一问题,提出了胜者通吃(winner-take-all)自动编码器特征表示与原始输入之间的对偶性。在此基础上,使用无向双边图分割算法对图像进行初始聚类,并采用支持向量机(SVM: Support Vector Machine)对聚类进行优化合并。在MNIST数据集上的实验表明,算法能够有效聚类不同书写风格的数字字符,并进一步将具有相同语义概念的数据合并为一类。该算法的聚类准确率为95%,已达到与监督的K近邻算法相同的水平。  3.在车辆图像检索系统中,车辆分类信息能有效减小搜索范围。针对这一应用,我们收集了两组车型数据以研究不同分类依据对算法的影响,第一组数据包含5类基本车型,第二组数据根据厂商信息包含58类车型。在此基础上,我们使用AlexNet,VGG等不同网络结构构建车型分类识别系统。实验结果表明,在数据量小的情况下,使用ImageNet数据集对网络预训练,之后在车型数据集上进行精调训练能获得更高的识别准确率。目前,只在车型数据上训练的网络在第一组数据上的识别误差率为14.6%。而预训练后再做精调训练的网络识别误差率在第一组数据上为5.11%,第二组为8.2%。  4.车型图像分类问题是典型的精细分类问题。直接处理整幅图像的算法很难获得更加准确的识别。因此,我们提出将基于深度稀疏表示的聚类算法应用于中层视元挖掘任务,挖掘出的图像块使局部差异更显著。最后,我们提出使用集成模型根据整幅图像及局部图像块来进行识别。算法能综合考虑全局及局部特征,消除图像中无关区域的影响,在精细分类任务中获得更高的准确率。并且当图像中出现遮挡时,我们的方法和其他方法相比鲁棒性更强。我们在CompCars数据集上进行实验,在无遮挡情况下,主流卷积网络算法最高识别准确率为98.4%,我们的方法为98.8%。在有遮挡时,卷积网络识别准确率为94%,我们的方法为96%。
其他文献
复杂海洋环境是指近海面或近海底,流、浪等作用强烈的环境。这种条件下水下机器人受到自身和外部环境的各种不确定性因素的干扰,主要包括:模型自身扰动,如模型本身的非线性、
学位
脉冲涡流检测技术是近年来发展迅速的一种无损检测新技术。与传统的涡流检测相比,脉冲涡流采用具有一定占空比的方波作为激励源,具有频谱宽、信号穿透能力强以及精确度好等优
机器人的智能性研究,是集合了传感器技术、数据处理算法和人工智能理论等各种尖端技术理论的复合型研究方向。随着现代社会对机器人能力要求的不断提升,高智能性的机器人产品
学位
天然气循环钻井是气体钻井技术的改进,通过回收循环设备实现对天然气钻井中使用过的天然气的回收和重新利用,实现节约成本、减少环境污染的目的。为了实现天然气循环钻井工艺
抽动秽语综合征(Tourette syndrome,TS)是一种儿童常见的神经精神性疾病,TS的病因至今尚不明确,临床缺乏客观指标评价TS及估计预后。TS复杂的临床表现使得其诊断仍具有相当的主
作为光学成像系统的重要技术之一,自动调焦技术经过几十年的发展,已广泛运用到相机及显微镜等成像领域当中,并出现了多种调焦方法,如测距法和相位检测法。随着数字图像处理技
学位
原油电脱水器是石油石化企业中的核心设备,而电脱水脉冲电源则是电脱水器的核心组成部分,因此电脱水脉冲电源质量的优劣直接决定着原油脱水的效果。目前各大油田中普遍采用的
工业无线网络技术是继现场总线之后,工业控制领域的又一个热点技术,是降低工业测控系统成本、提高工业测控系统应用范围的革命性技术。WIA-PA(Wireless Networks for Industr
学位
光学分子影像技术是一种融合信息科学、数学以及生物医学的多学科交叉前沿成像技术,它的出现和应用,推动了医学影像的快速发展。在光学分子影像技术中,研究者将荧光标记物作为示
基于视频图像处理的交通对象检测与分析是智能交通系统研究的重要组成部分。随着视频监控硬件技术和视频图像处理软件技术的快速发展,智能交通视频监控分析受到了广泛关注,并开