基于视觉特性和卷积神经网络的图像分类算法

来源 :天津大学 | 被引量 : 0次 | 上传用户：hanwenjun07

【摘要】

：

【作者】

：

高圣楠

【机构】

：

天津大学

【出处】

：

天津大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

图像分类技术是计算机视觉领域的一个热门研究方向,它不仅可以有效提升信息检索的效率,而且在图像分割、目标检测等领域都有着重要的应用价值。传统的分类方法需要手动提取特征,特征提取不充分;深度学习技术以其强大的自主学习能力,为图像分类提供了新的思路。为进一步提高分类准确率,论文基于人眼对视觉信息的感知特性,利用卷积神经网络,对图像粗粒度分类方法进行了深入的研究,主要内容如下:第一,论文提出了一种双路特征融合网络模型。该模型包含深浅两路通道,分别提取图像的细微和粗糙特征信息。在双通道处理过程中,利用粗糙特征对细微特征做信息补偿,采用多尺度融合来重建其空间结构信息;将粗糙特征和处理后的细微特征融合后,实现图像分类。此外,为了进一步提高网络的特征学习能力,设计了一种自适应指数学习率方法,这是一种动态的学习率更新方式,可以根据网络上一次迭代时损失函数值的变化情况,对当前学习率进行动态调整,以加快模型的收敛速度,同时在一定程度上提高模型的分类准确率。第二,提出了一种多尺度特征融合网络模型。利用左右两路通道来模拟双目识物过程,进行特征提取;两路通道分别采用不同感受野的空洞卷积,以获得多尺度特征信息;通过将特征信息逐级输入到融合通道中,来获得图像的细微特征信息;将其与来自浅层的粗糙特征信息进行融合后,传入全连接层,实现图像分类。最后,为了验证本文算法的有效性,分别在国际公开数据集CIFAR-10和CIFAR-100上进行实验。实验结果表明,两种算法均能够很好地模拟人眼视觉特性,取得了比较理想的图像分类效果。

其他文献

基于光照判别及多源数据融合的显著性目标检测方法研究

显著性目标检测任务的目的是在图像中勾勒出人类视觉最关心的部分,用于后续的算法或是减少图像处理的成本。某些应用环境中光照不足,可见光数据通常会失去大部分性能,而热成像数据可以弥补这一部分的信息损失,提高检测性能。本文针对低光照或是光照不稳定的情况下的显著性检测任务,对光照判别、多源数据融合以及显著性检测展开了研究。具体工作如下:首先基于光照判别数据集,训练光照判别模型。将多源显著性检测数据集输入光照

学位

基于噪声估计的麦克风阵列语音增强算法研究

在实际环境中,语音经常受到噪声的干扰,影响语音质量。通常采用语音增强技术滤除语音信号中的噪声污染,提高语音信号的质量。其中麦克风阵列语音增强算法不仅可以使用语音信号自身的时频域信息,还可以使用各信号间的空域信息,空间分辨率较高,抗干扰能力较强,能够弥补单麦克风对噪声抑制不足的缺点,能够获得更好的语音增强效果,但其增强语音中仍存在残留噪声。因此本文提出一种基于噪声估计的麦克风阵列语音增强系统,主要结

学位

深度神经网络的轻量化卷积算子与自适应激活函数研究

近年来,深度学习技术在计算机视觉、语音识别、自然语言处理等多个领域崭露头角并取得了巨大成功。该技术主要基于神经网络模型,采用“端对端”的特征学习方法,通过多层处理找到数据中隐藏的非线性特征,进而能够从大量训练集中自动学习以掌握全局特征。然而,基于神经网络模型的深度学习技术目前还存在计算复杂度大和表达能力有限等问题。针对上述问题,本文从轻量化卷积算子和自适应激活函数这两个角度进行了研究:第一,提出了

学位

基于无监督学习的屏摄图像去摩尔纹研究

屏摄图像上的摩尔纹是指在拍摄数字显示设备时,数码相机的感光原件和显示设备的显示元件之间发生混叠而产生的干扰条纹。这种干扰条纹的尺寸、形状和颜色会根据拍摄角度和不同相机参数设置而发生变化,这使得很难使用人为设计的先验信息来对摩尔纹进行去除。传统的有监督的深度学习方法需要使用大量严格成对的带摩尔纹图像与干净图像来训练网络,这需要很大的人力物力财力支持。并且拍摄时显示设备和拍摄设备之间的不同夹角以及拍摄

学位

基于改进全变分的滤波方法研究与应用

在社会信息化大发展的时代,图像处理技术已逐渐成为科学研究的重要支撑,正不断渗透在各个领域中。光学图像滤波处理正得到广泛关注,其包括医学诊疗图像处理方向的视网膜光学相干层析（Optical Coherence Tomography,OCT）以及电子散斑干涉（Electronic Speckle Pattern Interferometry,ESPI）两个方面。OCT和ESPI等测量技术所采集到的图像

学位

无人系统智能室内视觉语言导航算法研究

通过语言指导机器人完成通用性任务是人工智能领域的重要研究课题之一。近年来,越来越多的学者试图将计算机视觉与自然语言处理领域的相关技术相结合来实现这一目标,视觉语言导航（Vision-and-Language Navigation,VLN）是其中的核心问题。本课题源自于科研“手势-眼动联合操控小型无人系统XX应用研究”项目,该项目主要研究未来智能人机交互、人机协同的方式方法,本文针对其中的无人系统智

学位

基于随机网络演算的电力B5G通信延时计算

随着分布式能源并网调控、新能源电动汽车充放电等新型数字化电力业务的大量兴起,电力系统承载的业务数据网正加速趋于多样化、广域化、智能化。为了保证承载多主体大业务的电力系统安全稳定运行,高性能高可靠的电力通信网络成为关键性因素。对于点多面广的分布式发电侧和低压配电网侧来说,尚未实现完全的电力物联信息互联互通,电力通信“最后一公里”问题仍然存在。近年来无线移动通信技术迅猛发展,以5G为代表的先进信息通信

学位

基于波束形成的语音增强算法研究

语音增强旨在利用音频信号处理技术及算法提高失真语音信号的可懂度和听觉感知质量,使被噪声干扰的语音信号仍能有效传递信息。随着麦克风设备的低成本化和人工智能技术的发展,基于深度学习的麦克风阵列波束形成语音增强算法通过监督学习的策略,解决了传统波束形成算法所需先验知识多以及在低信噪比条件下算法鲁棒性差的问题。然而,现有的算法为提升性能,一方面不断改进网络结构,导致模型往往过于复杂;另一方面利用学习的方法

学位

基于元学习的光流估计方法研究

光流不仅包含图像中每像素的运动信息,还携带丰富的三维结构信息,是计算机视觉领域的一项重要任务。光流估计在视频理解、动作识别、自动驾驶等领域得到广泛应用。与手工提取特征的方法相比,利用深度学习可以实现稠密光流估计且具有计算速度快的优势,受限于已有的光流数据库真值样本少、获取成本高等现实情况,现有的光流估计算法存在噪声敏感度高、泛化性能差的问题。针对这些问题,本文设计了基于元学习的光流估计算法,完成工

学位

基于多视特征学习的三维模型检索关键技术研究

随着3D采集设备和3D建模技术的发展,三维模型的数量日益攀升。面对海量三维模型,如何实现高效的三维模型检索已成为多媒体信息检索领域的研究热点。本文主要研究基于多视特征学习的单域三维模型检索和跨域三维模型检索。单域三维模型检索任务面临的挑战是如何挖掘三维模型多视图之间的相关性,增强对三维模型的表征。跨域三维模型检索任务面临的挑战是如何消除模态间的数据分布差异,实现二维图片与三维模型在共同空间下的特征

学位

基于视觉特性和卷积神经网络的图像分类算法

与本文相关的学术论文