论文部分内容阅读
安全是一切工作的前提与基础。通过视频监控对人体行为进行识别和理解一直是智慧安全管控领域的重点研究内容。目前,对单一人体动作识别的研究已经取得了显著成果,但对由多种基本人体动作所构成的复杂人体行为识别的研究较少。现有复杂人体行为识别方法普遍存在成本高、效率低、通用性差等不足,无法满足安全管控系统的多样化需求,阻碍了安全管控系统的智能化运作。本文针对智慧安全管控中视频监控系统实施成本高、无法满足个性化人体行为监控需求,以及难以与其它信息系统整合等工程管理问题,设计并实现了一套基于语义定义的复杂人体行为识别视频监控系统。相关研究工作以零样本复杂人体行为识别为目标,围绕人体行为量化表示与数据增强、动作时序定位、复杂人体行为语义层特征学习三个方面开展研究,提出了一种基于紧凑型存储思想的人体行为三维矩阵表示方式,一系列基于人体生理结构和人体运动特点的行为样本增强策略,以及一种基于大尺度时间窗口优先的探进式单步动作时序定位方法。并根据“任何复杂人体行为是基本动作时序组合”的定义,将复杂人体行为识别问题转换为“动作词及其特征在长时视频中的提取”和“动作组合语义相似度判断”两个主要问题,设计并构建了一个零样本下也可有效习得复杂人体行为语义特征并进行准确识别的神经网络模型。主要研究工作如下:(1)针对人体行为特征因时空重叠导致运动信息丢失,以及样本不足易导致模型过拟合的问题,开展了基于人体骨架序列的多特征融合行为表示与数据增强策略的研究,提出了一种“人体行为视频→运动图谱/矩阵”的通用表示方法,实现了人体运动信息的紧凑型存储,并基于此表示方法,提出了多种基于骨架运动信息的样本增强策略。首先,提取每一帧视频中人体各关节点的运动速度、加速度、运动方向等原始运动信息以及相对坐标信息和人体几何结构信息;然后,将上述信息独立存储于由“时间、关节点、关节点特征”所构建的三维矩阵对应切片。通过延展存储域的时间维度,避免了同一存储单元因运动轨迹时空重叠导致的运动信息覆盖。另外,在此基础之上,结合人体生理和运动特点,通过程序模拟生成不同身高的行为人,以不同的速度、不同的方向,执行同一样本行为,使所生成的新动作样本是既符合人体骨架生理结构和比例,又符合人体行为规律,并包含新运动信息的“可信”动作样本,以满足深度学习模型对训练样本数量大、质量高的要求。(2)针对人体动作持续时间不固定,动作之间衔接转换无规律可寻,动作在复杂人体行为视频中难以精确定位的问题,开展了面向动作时序定位的多尺度神经网络与算法的研究,提出了一种基于大尺度时间窗口优先的探进定位方法。首先,通过插值拟合以及隔帧抛弃策略,使动作样本在尺度归一化后,能最大程度保留原始样本的运动信息;其次,基于“尺度金字塔池化层”和“全局平均层”组合,实现了深度神经网络模型在多个不同时间尺度样本集上的特征学习。不仅提高了模型的精度,而且能为动作时序定位提供灵活的时间窗口配置;最后,将中文分词领域成熟的“长词逆序分词”算法引入至人体动作时序定位领域并加以改进,通过“大尺度时间窗口优先”和“探进”策略,提升了模型对细微动作的发现能力,提高了动作时序定位效率。(3)针对复杂人体行为因种类不可枚举,导致识别模型通用性差、语义理解准确性差的问题,开展了面向复杂人体行为识别的量化表示与语义学习研究,提出了一种基于语义描述的通用复杂人体行为识别方法。首先,通过语义层定义,以低维度表达方式(文字)对高维度内容信息(视频)进行描述,使复杂人体行为在零样本情况下也可被精确定义;然后,通过词向量与运动特征的时序组合,实现了复杂人体行为的通用量化表示模型。使种类不可枚举、持续时长各异的复杂人体行为能够被量化为尺度相同的三维矩阵;并最终使深度神经网络能够从语义层习得复杂人体行为特征,以及在零样本情况下对复杂人体行为进行准确识别。本文通过对上述三个内容的研究,解决了动作识别、动作时序定位、复杂人体行为识别领域中现存的若干关键技术问题,提出了一系列技术可行且普适性较高的新思路、新模型和新方法。相关研究成果还解决了安全管控领域中人体行为监控及预警的若干工程应用痛点,降低了相关技术在应用和推广过程中的成本,提升了安全管控系统的“智慧化”程度。