【摘 要】
:
智能可穿戴设备在近年来得到了迅速发展,各种各样的可穿戴相机在许多领域被广泛应用,提供了大量第一视角拍摄的视频数据。针对第一视角视频中的行为识别也逐渐得到更多研究人员的关注。对第一视角视频进行数据分析,可以实现对佩戴者的实时监控和状态评估,在医疗健康、虚拟现实、智能家居等方面具有重要应用。第一视角为分析人与物的交互行为提供了全新的观察角度。在第一视角视频中,无法获知第一人称的姿势信息,而且其头部运动
论文部分内容阅读
智能可穿戴设备在近年来得到了迅速发展,各种各样的可穿戴相机在许多领域被广泛应用,提供了大量第一视角拍摄的视频数据。针对第一视角视频中的行为识别也逐渐得到更多研究人员的关注。对第一视角视频进行数据分析,可以实现对佩戴者的实时监控和状态评估,在医疗健康、虚拟现实、智能家居等方面具有重要应用。第一视角为分析人与物的交互行为提供了全新的观察角度。在第一视角视频中,无法获知第一人称的姿势信息,而且其头部运动会使得拍摄的视频抖动较大,视点变化大,场景复杂多变,这些都为第一视角的行为识别带来了挑战。近年来,深度学习在计算机视觉研究领域中取得了很大进展。本文在深度学习技术的基础上,针对第一视角视频中短时细粒度的行为识别展开研究工作。针对视频采样序列中无法包含丰富的交互物体信息,本文提出了基于第一视角行为活动中操作对象的变化状态,进行分段采样的视频采样方法,以便网络提取到更多的操作对象信息。同时针对操作对象被遮挡,相似等问题,在用类激活图对操作对象进行定位的基础上,提出了邻域法和分组法两种关联特征提取方法。通过引入关联特征,提高操作对象的特征表达能力,从而提升网络对操作对象的识别能力。针对特征融合不充分,以及关联特征提取引入冗余信息的问题,设计了多特征融合网络,即邻域融合网络和分组融合网络,对特征进行充分融合,有效地利用了多特征的互补优势,提升网络行为识别性能。为了进一步提升模型对第一视角行为活动的识别性能和模型泛化能力,本文借鉴多任务学习的思想,对邻域融合网络和分组融合网络设计了多任务学习器。针对邻域融合网络,引入动作和操作对象标签作为辅助任务监督信号,提升网络对动作和操作对象的辨识能力,进而提升网络的行为识别性能。针对分组融合网络,设计了四组独立的分类器分别对多组特征进行学习,再将结果集成,提升网络整体识别能力。通过在标准的第一视角日常行为活动数据集上进行对比实验,验证了本文方法的有效性。
其他文献
图像质量评价在数字图像处理技术中占据着重要地位,分为主观图像质量评价和客观图像质量评价两种。主观图像质量评价需要消耗大量的人力,且无法嵌入到实时应用的系统中去,因此需要研究能够适用于多种场合的客观图像质量评价方法。客观图像质量评价方法分为全参考、部分参考和无参考三种。在多数情况下,参考图像难以获得,因此无参考图像质量评价方法具有更广泛的应用场景。无参考图像质量评价算法BRISQUE(Blind/R
数字图像是大数据时代人类感知与传播信息的重要载体,在数字图像产生与保存的过程中会引入不同程度的噪声,图像质量差会对信息的获取产生很大的影响,使得后续对于图像的处理存在极大的不确定性,阻碍图像处理技术的发展。图像技术在多领域的普遍应用,使得数字图像质量增强技术的研究已经成为图像处理方面十分具有现实意义的内容,图像去噪作为进行图像研究的预处理问题,具有十分深远的意义。图像去噪判别模型由于其良好的去噪性
受到传感器成像机理与材料工艺的限制,由传感器采集到的单一类型图像数据难以全面、准确、清晰地描述场景中的信息。多源成像传感器可提供同一场景下类型不同的图像数据。多源图像融合技术的目的是尽最大可能提取来自多源信道图像数据的互补信息,生成包含更多场景信息的融合图像。现阶段,多源图像融合技术在数码摄像、视频监控、医疗诊断和遥感目标检测等领域得到了广泛应用。本文针对多聚焦图像融合和红外与可见光图像融合中信息
随着深度学习的发展,人工智能对人类社会生活带来了很大的便利。视频文本描述作为视频内容分析的重要分支,推动着视频检索与视频个性化推荐的进一步发展。视频文本描述算法需要对视频中包含的视觉内容使用自然语言进行文本描述,且要求该描述语句具有准确性、可读性与流畅性。目前在基于编解码模型的视频文本描述算法的研究中,将视频高级语义信息作为视频语义特征,能够有效地辅助解码模型更准确的将视频视觉特征转化为文本描述。
面部表情识别在情感计算中占有重要地位,已被广泛应用于人机交互、驾驶者异常监测、疼痛估计、远程教育等领域。人类表达情感的方式并不相同,即使传递同一种情感,面部表情也因人肤色、性别等身份属性的不同存在差异。目前常用的深度学习方法能够有效地提取图像语义特征完成表情识别,但由于现有的表情数据集样本偏少,仍难以学习到与个人身份无关的表情特征。本文研究了基于情感特征解耦学习的表情识别方法以解决表情特征与身份特
大数据时代,数据以维数高、知识体系混杂、数据量大等特点呈现,给基于数据的研究带来巨大的挑战。维数约减是从高维数据中抽取知识、形成组织、发现内在规律,进而减小冗余、增强特征价值密度、提高后续计算效率的有效方法。非负矩阵分解(Non-negative matrix factorization,NMF)作为非线性且带有非负约束的矩阵分解降维方法,具有可解释性、计算简便、大规模处理数据等优点,因此广泛应用
目标跟踪是计算机视觉领域中的一个重要研究方向,已广泛应用在城市视频监控、城市智能交通、移动机器人目标跟踪、无人机飞行、虚拟现实和医学检测等多个研究领域。在实际应用中,常常出现目标遮挡、运动模糊、背景与目标相似、背景杂乱等情况,这些情况对跟踪算法的性能提出了很大的挑战。基于判别式分类器的目标跟踪算法因其效率高、效果佳的优势逐渐成为目标跟踪领域的主流研究方向,基于此,本文对基于判别式分类器的目标跟踪算
无人驾驶技术是一个庞大且复杂的系统性工程,但其核心始终离不开传感器、定位与导航技术。全球定位系统(CPS)作为目前主流的定位技术无法满足厘米级的定位和避障,且在室内和城市中无法做到全覆盖。而基于计算机视觉的定位技术很好的补充了 GPS这一短板。同步定位与建图(SLAM)旨在实现三维场景重建以及成像传感器的相机位姿估计。目前主流的SLAM算法对计算性能的要求较高,往往需要高性能图形处理单元(GPU)
结构光视觉测量法是一种基于光学的三维测量技术,现有的研究主要是针对静态对象的三维测量,这对于文物保护、医疗手术、工业元件制造等方面具有极大意义。但对于高铁轮毂、空气预热器转子这类测量精度要求高、停机损失大的动态旋转对象,三维测量技术并没有取得很大的进展。本文的研究重点就是实现对旋转物体的动态三维测量。本文基于线结构光法和双目立体视觉原理,提出了一种不干扰被测物体运行状态、操作简单、无需标定转轴的三
随着互联网上各种视频数据的爆发式增长,如何快速了解视频的主要内容,缩短浏览时长成为了一个亟待解决的问题。视频摘要通过提取视频中的重要帧或者片段,生成能代表原视频主要内容的短视频,可以给人们提供一种快速了解视频内容的方式,因此成为了目前的研究热点之一。本文基于对视频内容的分析来研究动态视频摘要生成算法,得到能够描述视频整体内容的摘要视频。将视频分为多个片段,估计所有视频帧的重要性从而衡量每个视频片段