论文部分内容阅读
群体行为分析是指对多人参与的活动进行建模理解,包括识别当前活动类别、推理未来群体行为等,其广泛应用于视频监控、安防等各个领域中。近年来,随着个体行为分析技术包括检测、跟踪、姿势估计等的发展,研究人员提出了很多与群体行为分析相关的算法和分析框架。个体间交互建模是群体行为分析任务中的主要挑战,目前的工作往往采用层级式的网络框架或者图模型去捕捉群体活动的时空特征,然后进行行为识别。然而在群体预测任务上只有一些单粒度预测工作,例如群体轨迹预测以及个体动作预测。而只采用轨迹或动作信息则不能够完整表示当前活动。本研究同时考虑全局轨迹和局部动作信息以及他们之间的相互作用对群体行为进行建模,并将其应用于群体行为预测任务工作中。本研究立足于多粒度的群体交互预测问题,在单粒度预测方法以及群体交互建模的基础上,实现对群体行为多粒度信息的预测,包括每个个体在每一时刻的全局位置和局部姿势。基于深度学习方法,通过观察一段包含多人的群体活动视频,预测出接下来一段时间内每个个体的整体轨迹和局部细节动作。首先,采用姿势估计算法提取出每个个体的骨架信息,并采用多粒度数据处理,取骨架中心点为轨迹信息,取其他关节点相对中心点的坐标向量为动作信息。其次,提出了一种多粒度群体交互的预测框架,其主要由个体单粒度预测网络、个体间同粒度信息交互网络和个体内多粒度信息交互网络组成。个体单粒度预测网络对个体单粒度的运动信息(轨迹或动作)进行编码,捕捉其时空运动特征;个体间同粒度信息交互网络在轨迹和动作两个粒度上分别对个体间的交互进行建模;由于轨迹和动作本身属于一个整体,两者之间是相互约束的,本研究设计基于双向LSTM的个体内多粒度信息交互网络,对轨迹和动作之间的交互进行建模,并通过序列解码,预测出群体活动中每个个体的轨迹和动作。然后,通过骨骼重建,网络输出完整的预测骨架序列。本研究在两个国际公开数据集SBU和Choi’s New上进行实验验证,并与之前的工作进行对比,证明了所提出方法的有效性和鲁棒性。最后,基于条件生成对抗网络,将预测的骨架序列生成对应的视频,更直观地展示群体预测结果。