融合人脸检测的通用目标检测技术及实现

来源 :贵州大学 | 被引量 : 0次 | 上传用户:gl112238
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着硬件的计算能力、存储能力不断提升,通信技术不断创新,使得人们获取图像数据、传输图像数据越来越便捷,但与此同时人类社会中的图像数据量也迅速增多。如何利用计算机来帮助人类自动识别处理海量图像数据已经成为当下研究热点。目标检测是计算机视觉中的基础方向之一,它为计算机视觉应用程序提供最基本的信息,逐渐被应用在了各行各业,改变着人们的生活生产方式。目标检测所要完成的任务是自动地定位给定图像中特定的视觉对象实例。因为基于深度学习的目标检测算法具有出色的检测性能,其已然成为目标检测方向中的研究热点。当前基于深度学习的目标检测算法依赖于强监督信息才能够取得高检测准确率。在实际应用中如果想要扩充检测模型的目标类别,需要根据目标类别对数据集进行额外的人工标注,随着数据量的增多,扩充目标类别也愈发耗时费力。本文利用跨数据集训练技术,避免进行标注数据集的工作,在保持模型的检测准确率不降低的同时,扩充目标检测模型的目标类别。本文主要研究内容如下:(1)介绍了基于深度学习的目标检测算法中两种检测方法:基于锚点框的方法和基于关键点的方法,并讨论了两种检测方法的优缺点。基于锚点框的方法采用人工预设的密集锚点框进行正、负样本获取,基于关键点的方法采用特征图像素点来进行正、负样本的获取。针对不同应用场景,分别设计了两种侧重点不同的目标检测模型。双分支预测的模型侧重于高检测准确率,适用于GPU服务器计算。轻量化RFBNet模型侧重于高检测效率和轻量化,适用于嵌入式(移动端)设备计算。双分支预测的模型通过将两种检测方式进行合并检测,实现两种检测方法的优势互补。并且针对浅层特征提取网络缺乏高级语义信息的特点,在浅层网络引入感受野模块,增强了浅层网络特征中的高级语义,进一步提升了模型检测准确率。轻量化RFBNet模型利用深度可分离卷积代替普通卷积进行模型压缩,提高了模型检测效率、缩减了模型大小。(2)针对目标检测模型在扩充目标类别时需要额外补充人工标注的缺点,使用跨数据集训练技术,将通用目标检测数据集与人脸检测数据集进行联合训练,使用数据集感知损失函数避免联合数据集训练时造成的模型分类混淆,实现融合人脸检测的通用目标检测模型。实验表明,相较于使用单数据集进行训练的模型,跨数据集训练模型的检测准确率相差无几,并且扩充了检测模型的目标类别。
其他文献
随着遥感影像技术的发展,从不同传感器获取到的数据为众多遥感影像应用提供了大量可用的数据。多模态图像提供的数据具有较好的互补性,因此在遥感、飞行器以及监控领域发挥了巨大作用。而多模态图像配准作为图像分类、变化检测以及目标识别等研究的预处理环节,具有不可忽视的影响,其中SAR与可见光图像配准一直是近年来多模态图像配准的一个重点与难点。本文针对SAR与可见光图像的配准存在的噪声干扰、较大的灰度差异以及几
随着对智能窗户,可穿戴电子设备和光学存储设备需求的不断增长,在低电压刺激下能够实现快速可逆光学转换的电致变色设备(ECD)实现了迅速的发展。相比于传统电致变色材料,本征态导电的有机电致变色聚合物(ECP)成本更低、加工性更好,具有大面积生产制造的可能性。此外,ECP可以通过合理的结构设计实现对其物理化学性质的调控,因此其被认为是制造新一代柔性智能光电器件非常有前途的材料之一。具有稠环结构的并噻吩类
随着现代多媒体技术的发展,人们对所听到音频的音质要求也越来越高,越来越多的研究者开始将神经网络算法运用到频带扩展技术中来,用于提高窄带音频信号的音质,但是性能仍有进一步的提升空间。同时,基于神经网络的频带扩展方法模型在应用时缺少比较便捷地接口,通常还需要强大的计算能力,因此设计并实现一个能提供可扩展计算能力的音频频带扩展任务系统具有一定的应用价值。本文提出了两种基于神经网络的音频频带扩展方法,设计
云机器人将业务转移到云计算中心处理的新型计算架构,成为机器人体系中的重点研究内容。云机器人借助云服务中的计算、存储以及网络等资源大大提高了工作效率,但是仅仅依靠中心云是不太可靠的。随着物联网的快速发展,中心云面临着沉重的网络负担,已无法满足用户低时延高带宽的需求。因此出现了边缘计算的模式,通过将云资源以及业务平台下降到网络的边缘,使得用户物理位置与业务云距离更近。从而减少用户端到边缘服务器端的交付
随着我国经济的快速发展,食品饮料行业因其作为快速消费品投资回报率高、且资金周转快的特点备受市场关注。吸引了众多国内外知名品牌进入中国饮料行业。然而在经过十几年的快速增长过后,从2015年起我国软饮料行业在中国经济稳中有变,危中有机的背景下,开始增速放缓,中国饮料行业步入“新常态”发展阶段。此外,随着中国消费市场的消费结构持续升级、居民健康意识提升等,消费者对饮料的产品需求也在不断变化;“互联网+”
生态系统福祉化是当今世界生态保护追求的目标,通过生态福祉的实现,促进生态保护与发展的协调也是各国相关政策制定的重要目标。联合国千年发展目标,2030年规划均将生态系统福祉化作为重要内容。生物多样性保护是提供生态保护,提升人类社会生态福祉的重要战略,也是导致利益冲突的重要原因。为此,客观评价认识保护地区生态福祉的实现,以及当地居民保护行为的影响是有针对性改善保护,提升对当地福祉供给,多层面实现保护目
作为人类不可或缺的数字信息载体之一,图像被井喷式创造问世以至于没有任何机构能人工化地完全浏览,更不用说力图逐张理解图片语义。人工智能浪潮来袭,计算机视觉实现了诸如图像分类、图像检测等使机器“看”图片的能力。更进一步,如何使机器在语义化层面准确“理解”图片就变得日益重要,而图像生成描述算法实现了从图像到文本的跨模态实时转换,正是解决此问题的对症良方,研究方向前沿、应用广泛、意义重大。本文主要从两个方
在矿物资源短缺、环境污染严重的形势下,各国大力发展以电池为动力源的电动汽车来减少非再生能源的消耗、缓解环境污染所造成的影响。电池是电动汽车的心脏,决定着电动汽车的
微孢子虫是专性细胞内寄生的真核生物,可感染原生生物和哺乳动物,也包括免疫缺陷的人类。家蚕微孢子虫(Nosema bombycis)是第一个被发现的微孢子虫,能感染家蚕造成微粒子病,给养蚕业带来巨大的经济损失。分子伴侣是一类蛋白质,在原核细胞和真核细胞中负责大量多肽的折叠。新合成的多肽在没有伴侣蛋白帮助的情况下容易发生非特异性的相互作用,形成有毒的聚集物。任何对蛋白质折叠过程的错误调控都会导致蛋白质
视觉感知技术是三维显示技术和人工智能领域的重要依托。近年来,视觉感知在人工智能技术中的应用日渐广泛和深入,基于相机摄影的视觉感知相比其他传感器感知技术具有成本低廉、算法灵活度高、应用更加简便等优势。本文主要涉及图像识别和三维视觉两个重要领域,在正文部分将分别从这两个方面对三维场景的视觉感知进行研究和讨论。传统的三维重建技术更关注对物体表面纹理的还原,缺乏对场景的语义理解。另一方面,传统的图像目标检