【摘 要】
:
显著性目标检测是通过算法提取图片或者视频中显著区域(即人类感兴趣的区域)的技术。其中,显著目标可以依据纹理、颜色、大小甚至运动状态等有别于背景的要素来定义。显著性目标检测技术可以助力相关计算机视觉研究和现实场景应用。目前的显著性目标检测算法研究主要依靠卷积神经网络的学习来获取相关特征,进而使算法具有良好的性能。所以本文使用卷积神经网络为显著目标检测做出了探索性和创新性地研究,并取得如下成果:(1)
论文部分内容阅读
显著性目标检测是通过算法提取图片或者视频中显著区域(即人类感兴趣的区域)的技术。其中,显著目标可以依据纹理、颜色、大小甚至运动状态等有别于背景的要素来定义。显著性目标检测技术可以助力相关计算机视觉研究和现实场景应用。目前的显著性目标检测算法研究主要依靠卷积神经网络的学习来获取相关特征,进而使算法具有良好的性能。所以本文使用卷积神经网络为显著目标检测做出了探索性和创新性地研究,并取得如下成果:(1)目前的显著性目标检测模型仅从前景信息和背景信息中的一个维度来获取显著性特征,却没有综合地考虑并利用这两种信息。现实却是深层卷积神经网络的特征学习能力依赖于浅层网络的学习能力。换而言之,浅层神经网络获取到的某些显著性目标特征可以被传递到深层中继续学习和优化。本章将这部分信息称之为前景信息。而如果浅层神经网络未能学习到某些显著性特征,那么深层网络难以再检出或者恢复这些特征。也就是意味着这部分特征被“隐藏”在了背景信息中。最终,显著性目标部分区域的缺失会导致模型预测结果不完整。为了能够综合考虑前景和背景信息从而检测到完整显著区域。以及基于注意力机制模型能够针对显著性检测中已获得的特征信息优化的作用,本章提出了基于互补感知注意力的显著性检测算法。具体地说,本章的网络包括两条分支:用于检测特征图前景信息的正注意力机制和用于检测特征图背景信息的负注意力机制。本章将正注意力机制与负注意力机制输出的特征图融合来修正原始模型不完整的预测结果。此外,为了能够充分获取多尺度、多层次的显著特征,本章引入了双向结构和多层级监督。实验表明,本章提出的算法在显著性目标检测评估指标上有良好的表现。(2)如何充分利用显著性目标的特征信息一直是显著性检测研究的重点。但是由于工作一仅考虑到前景和背景互补,而由于显著性目标检测卷积神经网络的不同卷积层具有不同性质的特征信息。此外,检测网络的同一特征图的不同通道的特征信息也有区别。上述的特征信息的互补利用有助于最终预测结果的准确性。所以针对于此,本章设计了一种基于通道注意力分层U形网络的显著性检测网络。该网络包括了平行空洞卷积模块和多级联通道注意力机制反馈模块。具体来说,平行空洞卷积模块的作用是为了不增加卷积采样计算量的情况下扩大卷积感受野,以捕获更多的显著性特征。本章设计多级联通道注意力机制反馈模块的初衷是使不同卷积层的显著性特征互补,以及形成同一卷积层中不同通道间的特征图内部依赖关系。进而更好的利用不同卷积层和通道的显著性特征信息。此外,为了能够充分监督神经网络中间层的学习,本章采用了基于交叉熵函数的多层级监督。实验表明,本章算法在显著性目标检测评估指标上具有优异的表现。(3)工作一和工作二都是针对于静态目标的显著性检测其属于显著性目标检测基础任务,该类任务无法针对于动态目标进行检测。而视频显著性目标检测任务是显著性目标检测研究中的一个高阶任务可以对动态场景进行检测。因为视频任务不仅需要考虑空间维度中目标的显著性特征,还需要考虑帧与帧之间在时间维度上的互补依赖关系。因此需要将空间信息和时间信息综合互补利用。所以本章设计了一种时空互补的图卷积视频显著性检测网络模型。该检测网络能够将单帧中的空间信息和多帧间的时空信息综合使用。在提取单帧中的静态空间信息时,本章运用了前景和背景先验知识和图卷积理论,并将它们提取到的特征融合成互补信息。在提取多帧间的时空信息时,本章算法摒弃了先前利用LSTM,3D卷积和光流法等时空信息提取方式。而是全新设计了一种时空注意力机制模型。该模型能够基于同一段视频中的多帧信息学习他们之间的关联特征。此外,本章还设计了一种局部双向的结构,该结构目的是充分学习显著性目标的表征。实验表明,本章算法在视频显著性目标检测评估指标上具有优异的表现。此外,本章的模型的实际处理速度达到了23帧每秒。
其他文献
视频压缩感知系统基于压缩感知理论,仅在一次曝光过程中将多帧画面投影至二维压缩测量,进而实现高速成像。为了从二维压缩测量信号中恢复出原始视频信号,经典的重建算法基于视频的稀疏性先验进行迭代优化求解,但存在重建质量低,且耗时过长等问题。深度学习因优异的学习能力而受到广泛关注,也被应用于视频压缩感知重构问题,但现有基于深度方法的重构算法缺乏对于时空特征的有效表达,重建质量仍需提升。为此,本学位论文着重研
近年来,计算机视觉的发展使得图像处理技术被运用于航空、气象、医疗、安防等各个领域。但是图像在采集、传输和存储等过程中容易受到各种噪声干扰,导致图像质量下降,从而直接影响图像后续处理。因此,图像去噪是图像处理中必不可少的环节。目前研究者们针对高斯噪声进行研究,并提出了许多高性能的去噪算法。而混合噪声的噪声分布较复杂。对诸如混合高斯、脉冲噪声的研究还不够深入,相关算法的去噪性能有待提升。目前对于混合噪
时序动作检测任务是当前计算机视觉领域的研究热点之一。该任务可以定义为:以自然采集的视频片段作为输入,自动输出视频中包含动作片段的开始时间点和结束时间点(时序动作提名生成),以及该动作的具体类别(动作识别)。本文分别对时序动作提名生成任务和时序动作检测任务进行了探索和研究。关于时序动作提名生成任务,针对现有方法对动作开始和结束边界点难以准确定位的问题,本文提出了一种基于精确边界预测(Boundary
作为自动视频监控中最重要的技术之一,行人重识别(Re-Identification,Re-ID)技术受到了广泛的关注。当前,大多数行人重识别方法假设所有来自不同摄像机的行人图像具有相同的分辨率。然而,在许多真实场景中,由于摄像机与行人之间距离的变化以及摄像机的部署设置,行人图像的分辨率往往不同。由于信息数量的差异,直接匹配不同分辨率的行人图像会对识别性能产生不利影响。为了解决这个问题,一个潜在的解
多无人船系统在执行传统连续分布式编队控制算法过程中,无人船之间需要进行频繁通信且无人船控制器会持续更新。为减少算法执行过程中对通信带宽以及控制器性能的要求,本文通过引入事件触发机制,设计多无人船分布式事件触发编队控制算法。在保证多无人船系统编队控制基础之上,有效降低算法执行过程中无人船之间通信量与控制器更新频率。本文主要研究内容如下:首先,本文提出一种基于事件触发的多无人船分布式编队控制算法。通过
混合式教学结合在线教学和线下教学的优势,在一定程度上打破时空的限制,体现了“以学生为中心”教学范式的转变。伴随着混合式教学规模的扩大,如何通过学习者学习行为数据来分析和挖掘出有用的信息,帮助学习者提高学习效率,改善教师教学水平和质量,成为迫切需要解决的问题。针对上述问题,本文对学生在混合式教学过程中产生的学习行为数据进行分析和挖掘,构建了学习行为数据分析-特征选择-Stacking融合的学业预测模
图像超分辨率重建是一种从低分辨率图像中获取信息,生成对应高分辨率图像的技术。作为计算机视觉领域优化图像质量的一项重要的图像处理技术,图像超分辨率重建在医疗图像、遥感影像和视频监控等场景都具有重要的应用意义。近年来,随着深度卷积神经网络的兴起,基于深度学习的图像超分辨率重建算法逐渐受到更多人的关注。相比传统超分辨率技术,深度学习超分辨率重建算法不仅训练方法简单,而且模型性能提升显著。然而,逐渐加深的
随着机器视觉技术的不断发展与完善,基于机器视觉的导航系统在农业、工业、无人驾驶、服务业等领域都得到了广泛应用。由于城市化的发展,近年来割草机应用的越来越广泛,然而传统的割草机需要人工操作,劳动强度大,工作效率低。随着嵌入式处理器速度的提高以及机器视觉技术的进步,将机器视觉与嵌入式结合,用于对割草机进行自主导航成为可能。因此研究基于机器视觉的割草机自主导航与智能化控制具有重要的理论意义与实际应用价值
随着我国经济的不断发展以及科学技术的进步,对于交通网络的监控日益完善,交通视频监控设备在很多路口完成了部署,为车辆检测、轨迹预测等诸多技术的研究提供了数据支撑,通过这些技术可以挖掘出交通网络中的特征信息,为完善交通以及制定交通策略提供辅助作用。车辆检测是交通视频处理中常用的技术手段,其中的技术难点是如何解决错检、漏检以及外部环境变化对检测结果的影响。针对这些问题本文提出一种改进ViBe算法。根据车
检测人体生理参数可以帮助人们了解自身的健康状况,及时发现疾病并治疗,在医学体系中具有重要意义。基于成像式光电容积描记(Imaging Photoplethysmography,IPPG)技术的非接触式生理参数检测方法,避免了人体与仪器的接触,让居家监测、远程实时检测成为现实,除此之外还具有成本低、操作简单等优点,具有良好的实际应用价值,但是也面临着信号运动伪差难以去除、实时性差等挑战。基于上述背景