【摘 要】
:
针对公共场所中的特定事件的自动检测技术是保障公共安全的重要手段之一,也是推动社会智能化发展的重要技术之一。时空行为检测(Spatiotemporal Action Detection,STAD)就是在此需求下应运而生的自动化检测技术,常用于检测视频中特定的行为及其发生时所在的时空位置。时空行为检测中,用于检测如学校、监狱等特殊场所中打架斗殴等暴力事件的暴力行为检测(Violence Detecti
论文部分内容阅读
针对公共场所中的特定事件的自动检测技术是保障公共安全的重要手段之一,也是推动社会智能化发展的重要技术之一。时空行为检测(Spatiotemporal Action Detection,STAD)就是在此需求下应运而生的自动化检测技术,常用于检测视频中特定的行为及其发生时所在的时空位置。时空行为检测中,用于检测如学校、监狱等特殊场所中打架斗殴等暴力事件的暴力行为检测(Violence Detection,VD)技术具有极其重要的应用价值。虽然,基于手工特征的传统STAD技术已趋于成熟,但其较低的计算效率、较弱的特征表达能力等问题阻碍了实际应用。随着深度学习在计算机视觉领域大放异彩,STAD任务也得到了迅速的发展。本文基于深度学习对暴力行为检测和时空行为检测作了进一步的研究,具体可以总结为以下两点:(1)通常暴力行为检测任务仅完成判断视频中是否存在暴力行为,而不管暴力行为发生的具体空间位置。本文中VD研究工作基于STAD,也就是说不仅识别暴力行为,而且检测其具体时空位置。受two-stage目标检测架构启发,本文设计了一个基于R-CNN结构的VD模型,该模型使用行为者推荐网络得到针对人类的区域推荐,并使用三维卷积来对一定时间范围内的相关区域特征建模,以此获得暴力行为的时空特征。通过实验验证了该模型的有效性。在此模型的基础上,本文设计了一个从数据获取到检测结果保存的完整VD系统,并改进了本文VD模型的检测流程以更好适应实际使用环境(在线或离线检测)。(2)现有的时空行为检测方法通常都是由目标检测中先定位后分类的two-stage检测架构扩展而来,然而这种检测架构用在STAD任务上往往会产生高昂的计算成本和次优解。本文中提出了一个概念简单且计算高效的STAD模型,名为MUB-Detector。在有强大时空建模能力的三维卷积神经网络基础上,MUB-Detector使用了一个时间敏感多分支结构将STAD任务简化为多次一阶段“目标”检测,进而得到输入视频片段中每一帧存在的行为实例的空间位置及行为类别,最终实现one-stage的STAD。在两个基准数据集(J-HMDB和UCF101-24)上的实验结果表明,与基于two-stage检测架构的方法相比,使用本文提出的统一STAD框架可以有效地提高检测效率。特别是,其他方法使用了光流等额外数据辅助检测,但本文MUB-Detector能在仅使用RGB图像的情况下,获得与其竞争的检测精度,并且检测速度更快。
其他文献
数字图像一直在信息的传递过程中扮演着重要的角色。如今多媒体信息爆炸的时代充斥了图像和视频等数字信息,同时也存在着包含大量模糊人脸图像的问题。无论是人们日常分享生活、传递信息还是在科研领域中如智能安防、目标或人脸检测或者自动驾驶等计算机视觉任务都需要依托大量清晰的图像,因此将模糊图像重新变得清晰是一个急切且广泛的需求。在图像处理领域中,将图像的模糊主要分为了高斯、散焦、运动、衍射等类型,其中由运动所
光相干层析扫描技术(Optical Coherence Tomography,OCT)因具有非侵入性和微米级分辨率的优点而成为眼科疾病诊断的重要工具。然而,基于OCT技术的诊断存在两个无法避免的问题。首先,采集的OCT图像中存在大量斑点噪声;其次,在采集过程中,为了尽可能避免数据丢失,通常采用低空间采样率进行采样,但由此得到的OCT图像具有较低的分辨率。因此,当前临床上需要可行有效、并能同时实现O
增强现实技术将经过计算机渲染的虚拟物体与真实场景相融合,广泛应用于电影制作、医疗辅助、工业生产、娱乐等领域。为了保证虚拟物体和真实场景融合的真实感,需要渲染虚拟物体时使用的光照信息与真实环境保持一致,实现虚实融合的光照一致性。受可控光源的影响,室内场景中的光照条件比较复杂并且具有动态变化的特点。对室内场景光照的动态变化进行估计,是实现增强现实光照一致性的重要技术。综上,室内场景的动态光照估计具有重
计算机断层扫描(Computed Tomography,CT)能够利用人体组织对X射线吸收率差异进行成像,以无创的方式获得人体的内部结构图像,因此在临床医疗中被广泛应用于疾病的筛查和诊断。由于X射线辐射对人体具有潜在危害,低剂量CT(Low Dose CT,LDCT)逐渐成为了当前CT成像的主要研究方向。减少X光照射剂量和降低曝光时间是目前减少X射线累积辐射的主要手段,然而X射线的剂量减少会引起量
信号调制识别在电子战、通信侦察、雷达侦察、无线电频谱监测与管理和链路自适应等领域有着重要的应用。但如今信道环境越来越复杂且信号调制方式不断增多,如何高效且准确地完成复杂环境中信号调制识别是当前通信各个领域亟待解决的难题。本文以某电子对抗部队非协作通信为背景,针对信号调制识别中传统算法识别性能低、计算复杂度高等问题,基于深度学习对AWGN信道和Rayleigh衰落信道中信号调制识别关键技术进行研究。
行人实例分割是对图像进行实例级和像素级处理的技术,是计算机视觉领域中一项重要的研究任务。当前的行人实例分割存在分割精度不高、缺乏对分割后的行人实例效果检验等问题。本文针对此问题展开研究,主要工作和创新点如下。1.针对当前行人实例分割精度不高的问题,提出了一个行人实例分割与提取网络。网络基础部分,采用单阶段网络设计结构,使用特征金字塔网络提取特征;网络主干部分,分为行人检测分支和行人实例分割与提取分
肺癌是中国发病率和死亡率最高的癌症,恶性肺结节的早期筛查能够显著降低肺癌的死亡率。胸部计算机断层扫描(Computed Tomography,CT)图像能够以非侵入的方式捕获肺结节的异质性,是目前肺癌早筛的常规方法。精准的肺结节定性极其困难,其不仅是因为医生在高强度的工作负担下无法保持高度集中来做出准确的判断,而且还在于人眼难以捕捉到发生在CT值细微变化的肺结节异质性。肺癌的计算机辅助诊断(Com
电子计算机断层扫描(CT)技术可快速获取人体组织结构图像,得到的图像具有极高的空间分辨率以及清晰度。CT技术目前已经成为临床诊断的重要方式,为临床医生对疾病诊断和治疗提供了强有力的帮助。随着CT技术的广泛使用,检测时产生的辐射对受检者所造成的伤害不容忽视,过量CT辐射将严重损害受检者的身体健康。但是,降低CT检测的辐射剂量会导致CT图像出现噪声、伪影,引起图像质量下降。这些噪声、伪影经常掩盖细微但
近年来慢性非传染性疾病对人类健康的威胁日益增大。各类慢性病因其复杂的发病过程,很难确定疾病的发病时间。慢性病的早期筛查和确诊是公认的降低慢性病危害的有效办法,只有通过定期的体检来尽早发现诊断慢性病。伴随医疗信息化的建设不断深入,大部分医疗机构已经存有大量医疗健康数据。在这个前提下,逐渐成熟的人工智能技术为慢性病早期的筛查和诊断提供了有力的工具。近年来,针对各类慢性的研究逐渐增多。本文以体检数据为研
信息化技术和互联网的快速发展正深刻地影响着人民的生产与生活方式,我国社会正逐步朝着信息化社会迈进。根据第47次《中国互联网络发展状况统计报告》[1],截止2020年底我国的互联网普及率已达70.4%,人民的生产和生活与网络紧密相关。然而,在人们享受信息化与智能化所带来的便利同时,网络空间中所存在的安全问题是无法被忽视的。《2019年我国互联网网络安全态势综述》[2]中的统计数据显示,约有44.4%