基于深度特征学习的视频行为识别与定位方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:jenny_408
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能,近年来受到广泛的研究关注,并且在众多领域都得到实际运用。计算机视觉作为人工智能研究的一个子领域,目的在于实现计算机对人类智能处理视觉信息的模拟,以实现对于海量视频数据的高效智能处理。人作为社会活动中的主体大量出现在视频数据中,因此对人类行为的理解成为了视频分析技术的研究热点之一。由于人类行为复杂多变,细粒度地对这些行为进行研究,可以引导识别算法对其产生更鲁棒的理解,从而更好地运用于实际。同时,人类行为的发生只存在于视频中的某些时段,因此行为实例的开始与截止时间的定位也是一项研究重点。然而,已有细粒度行为方法为提高识别性能,往往使用高人工成本的额外辅助信息。另外,全监督的时序行为定位方法需要高消耗人力标注的时序边界作为训练模型的监督标签。对此,本文使用低成本的层次语义标签用于细粒度识别方法的研究,并对仅使用视频级类别标签的弱监督时序定位方法进行探索。针对此两个研究点,本文的主要工作内容为:(1)针对细粒度行为识别方法中判别性特征挖掘难问题,本文探究了层次语义标签的结构关系,并提出了基于层次语义标签的判别性特征学习网络。该网络由三条支流组成,并分别由不同粒度的类别标签作为监督信息。具体而言,该方法可分为自底向上和自顶向下两个阶段。在自底向上阶段,粗粒度网络会聚合同一粗粒度标签下不同细粒度行为的类间共同语义特征;在自顶向下阶段,细粒度支流根据已提取的共同语义特征,对细粒度特征中的类特有信息进行过滤激活,以提升细粒度行为间的判别性。该方法在多个细粒度行为数据集上进行了实验,定量和定性结果都验证了其的有效性。(2)针对弱监督时序行为定位方法中出现的类背景干扰和行为时序建模问题,提出了一个新颖的基于对抗学习的时序增强网络。针对背景干扰,该方法采用对抗学习模式,设计了一个背景梯度增强策略以将整个视频被视为背景以增加模型的分类难度,从而驱使模型更好地对行为前景进行关注。而时序增强网络分为两个分支:一条为基础作用分支;一条为时序连续性分支。其中,时序连续性分支与基础支流相互作用,以约束相邻帧间的预测结果一致性来提升模型的时序连续性建模能力。本文在两个时序行为定位数据集上开展了实验,相关结果也展现了此方法的优越性。
其他文献
多标签图像分类作为计算机视觉领域的基础任务之一,其目标是从复杂的图像中识别出多个不同类别的目标并赋予其对应的一组标签。随着近些年自然语言处理与知识迁移的发展,一些研究人员尝试将自然语言处理任务中学习到的语义知识迁移至多标签图像分类任务中,提出了一系列的极具创新性的多标签图像分类解决方案。尽管如此,这些探索多标签语义信息的方法往往只考虑将语义信息作为视觉特征的补充或者辅助信息来指导分类器的学习,而视
学位
数据不平衡是医学领域数据集的常见挑战之一,在医疗不平衡数据集中包含大量正常样本(多数类样本)和相对较少的患者样本(少数类样本)。现有的机器学习分类模型在训练数据集不平衡的情况下会产生偏向于多数类的分类偏差,导致对少数类样本的错误判定,这对于患者来说是一种极其错误的释放,可能会导致严重的后果。在现有的医疗不平衡数据分类方法中,数据层面的方法主要包含欠采样和过采样。其中,过采样的一个关键挑战是其利用统
学位
在互联网时代下,社交网络飞速发展,人们习惯于在各类社交网络平台中获取信息、结交好友、创作内容。但当前中心化的平台架构导致用户失去部分主动权:(1)平台全权决定用户获取信息的内容和范围,导致用户无法自主选择;(2)用户在结交好友时将隐私信息发送到平台,但无法确保隐私数据的安全存储和使用;(3)用户在社交网络中创作内容的数字版权,尤其是图像版权权益得不到有效保障。这些问题的根源在于中心化社交网络平台权
学位
软件信息站点为软件开发人员提供了一个分享和交流他们知识的平台,在软件开发迭代的生命周期中起着重要作用。随着信息站点的不断演化,软件对象快速增长,标签被广泛应用于帮助开发者在软件信息站点上的各种操作。由于标签是由开发者自由选择的,开发者的知识背景、表达偏好、对软件对象的理解等方面的差异都可能会导致标签不一致或不合适。大量不合适的标签不仅影响了对软件信息站点内容的组织和分类,还导致了标签数量膨胀以及标
学位
我国土地广袤,幅员辽阔,有着最广泛独特的山川地理环境,造就了各具特色的城市图景风貌。当下城市“建设性”破坏持续蔓延,导致自然山水格局割裂,景观面貌愈发趋同,城市发展呼吁守护地方记忆、延续历史文脉。深入挖掘和汲取历史城市营建经验与智慧,传承城市地域特色和文化内涵,成为当前城市规划与建设的重要议题。城市历史景观是传统地域文化的重要组成部分,重新审视城市历史景观的资源及价值,不仅是一项推进城市历史遗产保
学位
随着视频数据的爆炸式增长,视频摘要任务便成为了学术界和工业界一个热门的研究问题。该任务的目标是从原始视频中选择出最能够代表原始视频的帧或者镜头的集合,用于组成紧凑的摘要视频。因此,视频摘要任务的核心在于关键帧或者镜头的选择。根据摘要视频的表现形式不同,可以将视频摘要算法分为关键帧集合的静态视频摘要和关键镜头集合的动态视频摘要。本文针对动态视频摘要,主要围绕提升摘要视频质量展开研究,主要工作包括以下
学位
在前端项目正式部署前,开发人员为了提高程序运行效率、降低网络传输开销、避免原始代码暴露在客户端应用程序中,会在不改变运行结果的前提下,对项目中的Java Script代码进行混淆和压缩处理。但对安全分析人员来说,通过逆向工程对源代码进行审查是非常有必要的,而混淆压缩的代码大大增加了审查的难度。因此需要一种变量名恢复方法帮助安全分析人员快速理解、分析代码执行逻辑。理论上来说,无法从代码本身携带的信息
学位
肺结节分类与分割在肺结节临床诊断中起到关键作用,它们属于计算机辅助诊断平台中的核心问题。近年来,由于人工智能的快速发展,大量的基于深度学习的肺结节分类与分割算法被人提出。然而,现有的这些分类与分割算法都不能有效地解决肺结节组织固有的数据不确定性问题(病变可能清晰可见,然而仅从CT图像可能无法获得有关它是否是癌组织的信息)。因此,本文围绕肺结节组织固有的数据不确定性问题并结合深度学习技术分别对肺结节
学位
肺癌是全世界发病率和死亡率最高的癌症之一。在利用计算机对肺癌进行智能诊断的过程中,肺结节的检测、分割和分类都是不可或缺的先后步骤。近年来,卷积神经网络算法在计算机视觉领域取得了突破性成就,同时在医学影像智能诊断任务上获得了优异的成绩。二维卷积神经网络可以有效挖掘肺结节平面的特征信息,却忽视了CT影像数据中肺结节三维空间中的上下文信息。针对以上问题,本文的研究方法基于三维卷积神经网络可以充分利用CT
学位
随着移动设备和人工智能应用数量的爆炸性增长,人们的生活已经与移动多媒体技术变得密不可分。其中,语音输入因其便利性,在日常社交中变得越来越重要。因此网络中也随之出现了大量基于深度学习的自动语音分析(Automatic Speech Analysis,ASA)任务,由于计算和存储资源有限,移动设备逐渐无法处理用户产生的这些计算密集型任务,通常会寻求云计算的帮助。然而,这些ASA任务通常具有时延敏感性,
学位