基于深度学习的图像智能检测算法与应用研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:JIMCZ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用技术和图像识别技术的发展,人们可以通过计算机实现仅存在于生物体中的视觉效果。如今,计算机视觉研究已成为一个跨学科的研究热点。主要目的是使计算机能够根据图像采集器捕获的图像对物体和场景做出正确的判断,包括对物体进行自动检测和识别。目前,目标检测与识别的研究成果被广泛应用于智能交通系统的车辆检测与识别中。智能交通系统(ITS)将人、车有机地连接在一个系统。这样车辆就可以在道路上实现安全自由地智能行驶。目标检测在实际场景中还有着广泛的应用需求,如视频监控、现实增强等,因此目标检测具有重大研究意义。
  目前常用的目标检测算法主要包括传统的目标检测算法和基于深度学习的目标检测算法。传统方法所提取的特征只是浅层的,难以表征检测目标多类别之间的差异,导致检测准确率较低。基于深度学习的目标检测算法一般使用神经网络提取候选区域,然后利用训练好的复杂卷积神经网络进行特征提取,进行分类识别,准确率明显高于传统算法。然而该技术还有很大的提升空间,实际目标检测还有许多问题有待解决,如检测目标较小等问题,因此对算法的要求越来越高。本文主要做了以下工作:
  本文总结了国内外目标检测研究现状,介绍了基于区域的卷积神经网络的发展,并进行比较分析。针对基于区域的卷积神经网络方法因生成建议区域不准导致结果准确率低的不足,本文从以下方面进行改进:
  (1)使用分水岭算法对图像进行预分割。对原始图像进行预分割,提高了产生的候选框包含目标的概率,为后续得到高质量候选框做了充分准备;
  (2)改进的锚框生成方法。把预训练中出现频率最高的真实尺寸作为初始锚框,然后根据锚框的面积以及长宽比生成多尺寸锚框,该方法提高了目标候选框的质量;
  (3)对候选框采用投票方式的筛选方法。对候选框以投票的方式进行筛选,然后将筛选的候选框的信息都综合起来得到物体信息,从而可以充分地利用候选框的信息。
  本文选择Faster RCNN(Faster Region Convolutional Neural Networks)作为目标检测框架,以Logo作为实验检测目标。从结构上,对比分析不同类型的卷积神经网络的特点,并在BelgaLogos数据集上对它们分类性能进行验证,最后确定最佳Logo分类网络。在Flickr Logos-16数据集上进行Logo检测实验,选择三种不同的卷积神经网络VGG16(Visual Geometry Group 16)、ZFNet、ResNet50(Residual Network50)作为改进后的Faster RCNN的共享卷积层,实验证明将ResNet50作为共享卷积层的检测,得到的Logo检测结果最好。
其他文献
近年来,语音识别技术逐步从科研机构走向市场,并广泛应用于智能控制、家庭服务、儿童教育等领域,这主要得益于深度学习的快速发展,让使用大数据集在实际应用中训练足够鲁棒的语音识别器成为可能。另外,语音信号处理技术在语音识别系统的应用也一定程度上解决了噪声环境下识别率下降的问题。  语音识别技术的主要目的是实现人与机器比较自然的语音交互,而不局限于文本的形式。在识别系统中,一般是使用理想环境下采集的纯净语
学位
近年来,全球卫星导航系统(Global Navigation Satellite System,GNSS)技术不断成熟和完善,其提供的定位结果已经完全能够满足人类在室外的位置需求。随着城市化进程的急速推进,人类在室内活动的时间所占比重日愈增加,对于室内位置的需求也日益增强。然而,GNSS信号在室内会受到现代建筑材料的遮挡,在穿墙后信号强度会迅速衰减,导致GNSS在室内的表现不佳。因此针对各种室内定
学位
随着互联网技术的飞速发展,网络环境也变得日益复杂,人们在享受互联网带来便利的同时,网络安全问题也逐渐成为了关注的热点。入侵检测系统是应对各种层出不穷的攻击手段的有效防御技术之一,它能够检测出当前的网络环境是否存在遭受攻击的痕迹,并根据入侵检测设备内部的协议产生相应的报警,进而便于网络管理员对网络实施防御措施。单一的入侵检测设备无法满足当前复杂多变的网络环境的需求,在实际的网络环境中,往往是多种不同
在互联网技术全面快速发展的时代,各种新兴网络应用平台(社交网络、电子商务)日益普及,使得大量的数据被搜集整合在一起。这些海量数据往往蕴含着宝贵且重要的信息,数据带给人们的价值无法忽视,对这类网络图形数据的研究也逐渐成为人们关注的对象。随着互联网上的数据生成快速化,数据量也随指数上升。数据中出现的冗余、虚假的信息无形中增加人们获取有效信息的查询时间与查询难度。面对海量、繁杂的信息,如何快速、便捷的获
学位
说话人识别又称为声纹识别,其主要任务有两种:说话人确认和说话人辨认。经过几十年的发展,说话人识别技术已经广泛应用于安防、金融和司法等领域。随着深度学习技术的迅速发展,端到端神经网络在说话人识别中有良好的识别效果。但基于端到端神经网络的方法仍然存在一些问题,如由帧级别特征转换为句子级别特征的过程中难以提取到更多有用的帧信息、现有的损失函数因为正负样本数量不均衡导致的识别性能不理想及训练收敛速度过慢的
BOC 体制信号的频谱分裂特性与窄相关峰特性使其相较于 BPSK 体制信号能够为GNSS提供更高的频谱资源利用率以及更优的定位性能,因此BOC体制信号成为了现代GNSS的重要组成体制,并成为GNSS发展的主要候选体制。然而, BOC体制信号的相关函数多峰性导致接收设备对其的捕获和跟踪都具有会引起严重测距误差的模糊度,因此掌握BOC的无模糊度捕获与跟踪技术是现代GNSS接收机同步技术的关键。本课题正
学位
近年来,无人机的泛滥使用对空中安全管理造成了巨大的威胁,然其作为一种“低、慢、小”目标,探测难度较高,利用传统方法很难将其从复杂杂波背景中检测与识别出来。而无人机的微动特征是其特有的运动信息,利用微动特征对无人机进行识别具有重要应用价值。时频分析方法作为提取目标微动特征的主要手段仍然存在许多不足,其中线性时频分析方法的时间分辨率和频率分辨率相互制约易导致分析结果不准确,而二次型时频分析方法具有良好
工业过程能向智能化方向发展得益于故障检测技术的出现,作为保障工业系统稳定运行的关键技术,故障检测技术的重要性日益突出。以往传统的故障检测技术分析的是工业过程的运行机理,且要求工业过程模型十分的精确。但是,现在的工业过程系统非常复杂,这无疑使得构建精确的过程模型变得十分的困难。鉴于此,学术界的学者把目光转向了工业系统产生的数据,这些数据中包含了工业过程中的所有信息,如何从这些数据中挖掘出有用信息成为
学位
伴随着深度学习技术的快速发展,限制场景下的高分辨率人脸识别准确率已经超过了人类水平,在门禁、安检等领域均得到了广泛应用。但是在非限制场景下,当距离摄像机过远,识别准确率明显降低。低分辨率人脸由于尺寸较小,如何提取鉴别性特征是目前需要解决的难点,且其缺少的高频信息对于识别十分重要。本文针对低分辨率人脸识别率较低的问题,基于深度卷积神经网络,提出了结合人脸重建的识别方法和一种新的图像重建算法,主要研究
在许多对称密码算法中,密码S盒通常作为唯一的非线性部件,实现字节代换功能,以完成算法所需的数据混淆性。注意到,这些对称密码算法的安全强度与S盒的代数性质紧密相关。S盒的主要安全性指标有:非线性度、差分均匀性、双射性及代数次数等。然而伴随着各种新攻击方法的不断涌现,S盒是否存在未知的安全缺陷?如何更全面的评价S盒的安全强度?都是亟待讨论的问题。  本文以现有的密码S盒的安全性指标为基础,结合非线性不
学位