基于时空特征融合和知识蒸馏的行为识别算法研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:WWL6612
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行为识别是计算机视觉领域中的一个重要研究方向,其有着很广泛的应用场景,包括行为分析、视频检索、人机互动、游戏娱乐等。现有的基于视频的行为识别模型算法还存在两个问题:1)视频是由有序的图像组成,但视频的时间维度和空间维度的重要性并不相等,如果将空间特征和时序特征以相等的比例放入到分类器中对进行分类,这就会导致时空特征不平衡的问题,从而影响分类结果;2)尽管已有很多方案对视频时序特征的提取可以达到很精细的程度,但是仍缺乏对行为的视觉节奏的区分。针对这两个问题,本文提出了基于三维卷积时空特征金字塔网络,该网络通过采用时空特征金字塔扩大空间维度与时间维度的感受野,以解决模型缺乏对行为的视觉节奏区分的问题;通过设计的多层特征提取模块保证输入到分类器中的时空特征相对均衡,以解决视频的时空特征不平衡问题。在实验部分,本文在公共数据集Kinetics-400上对基于三维卷积时空特征金字塔网络进行了实验及分析,其最高达到了76.68%的top-1准确率,93.18%的top-5准确率,与其他方法对比有着显著的优势。人工智能算法模型若要应用于实际场景,大多需要将模型部署到有限资源的设备上,而模型规模过大会导致其部署困难,这也是深度学习领域普遍存在的一个问题。因此,模型的压缩显得尤为重要。为了优化模型,本文将知识蒸馏技术引入到基于视频的行为识别算法上,以进行模型压缩。针对行为识别任务的特殊性,本文设计了多层特征蒸馏模块,该模块主要将特征在时间维度和空间维度上进行划分,分别对其进行对比分析,以保证尽可能使得学生模型每一层的输出特征接近对应教师模型的输出特征。其核心是时空特征转移损失函数,它充分考虑了知识蒸馏中对视频时序信息和空间信息的转移。在公共数据集UCF101的实验中,本文使用不同层的3D Resnet作为特征提取网络,结果显示,采用多层特征蒸馏模块进行训练,不仅可以对模型的训练效率有所提升,还能对模型的识别准确率有所提升,最高可达4.4%。
其他文献
古代壁画图像采集过程中受到成像设备和环境因素的制约,造成捕获图像存在分辨率低、纹理不清以及细节模糊等失真现象,从而影响壁画图像的观赏效果。因此,作为一种软件解决方案,图像超分辨率能够从低分辨率图像中重建出高分辨率图像,成为当今图像处理和计算机视觉研究领域的热点。然而,现有图像超分辨率技术主要针对自然图像进行处理,在古代壁画领域的应用仍处于起步阶段。与自然图像不同,古代壁画图像呈现丰富线稿和大量平滑
学位
随着电子商务与短视频业务的快速扩增,互联网空间中各种数据信息呈现指数式增长,“信息过载”已经成为人们在当今时代面临的巨大挑战。推荐系统的出现极大的缓解了这个困难。推荐系统以优化用户体验、提高商户利润为目标,在系统中通过分析用户行为日志,构建出用户画像信息,进而主动产生推荐结果。虽然目前推荐系统已取得一定的进展,但其仍然在冷启动问题、共现矩阵稀疏、跟踪用户兴趣变化等方面面临巨大挑战。为缓解上述问题对
学位
受库水位大幅升降和极端强降雨的影响,我国三峡地区滑坡灾害频发,防灾减灾形势严峻。建立高效的滑坡位移预测模型能够直观的反映出滑坡变形趋势,是解决滑坡灾害问题的有效手段。针对三峡地区的阶跃型滑坡,变分模态分解(VMD)可以自适应地将滑坡总位移分解为趋势项位移与周期项位移,对各项位移单独预测可以减小位移曲线急剧增加对预测模型造成的干扰,使预测结果更加精确。针对成因复杂的滑坡位移预测任务,深度学习可以挖掘
学位
陶瓷文物在挖掘出土过程中,会产生大量碎片,很难被完整保存,因此陶瓷文物修复是其保护的一项重要内容。陶瓷修复过程大致包含碎片分类、碎片拼接以及孔洞修补等步骤,其中准确的碎片分类可提高修复效率,减少二次损伤。但现有陶瓷碎片分类方法的准确率和效率较低,其原因涉及两方面:1)碎片数量众多、标记困难;2)宏观陶瓷观察到的特征信息较少。针对上述问题,本文提出两种无监督深度学习方法对陶瓷碎片显微图像进行分类模型
学位
三维人体姿态是描述人体输入指令的重要信息点,机器能够很好地阅读人体姿态的含义,对于人机交互有着非常重要的意义。目前三维人体姿态识别存在着生成动作序列抖动、识别速度过慢以及环境遮挡时检测不准确等问题。本文针对上述问题展开研究并提出改进策略,最后根据改进内容制作了实时三维人体姿态识别系统。本文着眼于三维人体姿态识别技术,结合现有技术,分析其中存在的不足,提出了将TCN网络与Open Pose结合的二维
学位
互联网迅猛发展,促使医疗、金融、娱乐、购物等不同领域逐渐互联网化,软件在人们生活中随处可见。软件漏洞屡见不鲜,已经严重危害到国家和社会的经济,影响人们的正常生活。在众多漏洞类型中,Java反序列化漏洞自2015年,呈持续上涨的趋势,由于其很容易被非法利用,因此成为目前最具威胁的软件漏洞之一。在反序列化漏洞被发现之前,对软件所使用的第三方公共组件库进行检测,能够提前发现并防御潜在的反序列化漏洞。目前
学位
软件漏洞在软件开发中不可避免,在软件正式版本发布前,通常需要对软件源代码进行审计,尽可能检出软件中潜在的安全问题,并对其进行修复。为此,研究人员提出了一系列基于规则和基于机器学习的代码漏洞检测方法。基于规则的漏洞检测方法由于需要人工专家参与规则的制订,因此对漏洞变体和新漏洞类型的检测能力差。基于机器学习的漏洞检测方法虽然功能强大,但仍需要先验知识,人工定义漏洞特征。随着深度学习和代码表征技术的发展
学位
随着城市化建设的提速,城市在面积扩张迅速的同时面貌也日新月异。因而,城市管理者所掌握的信息也需要及时更新,以保障城市生活质量。在此背景下,利用居民日常生活中产生的出行大数据,设计机器学习算法动态化、智能化辅助管理者开展城市规划工作就显得极为重要。在辅助城市规划的相关工作中,自动识别用地功能与精准预测区域交通流是两个重要的方面。与此同时,用地功能属性与交通流变化之间存在紧密且复杂的联系可以被挖掘利用
学位
秦腔是中华文明历史发展的瑰宝,也是最古老的传统戏曲之一。目前秦腔表演形式受限、传播渠道单一,使得秦腔面临传承断代甚至消失的危险。随着计算机感知能力的提升和虚拟现实技术的发展,应用动作识别和增强现实等技术实现传统戏曲的交互式数字化虚拟展演成为了虚拟现实领域的研究热点。本文针对秦腔虚拟展演动作识别和三维模型注册等关键环节,提出基于骨架数据的时空图卷积网络改进模型和基于POSIT优化的位姿估计算法,解决
学位
颅面复原是根据颅骨和面部之间的关系从颅骨重建面部,以帮助识别颅骨身份。本文针对现有计算机辅助颅面复原方法缺少五官细节、复原人脸真实感效果较弱的问题,利用人工智能与图形图像学方法,将颅面复原问题转换为颅面图像翻译问题,实现对蒙古人种颅骨高真实感的面貌复原,复原结果在考古、医学、刑侦等领域拥有广泛的应用前景。本文研究工作主要包括:(1)构建二维颅面图像数据集,首先对三维颅面模型进行数据预处理,再通过正
学位