论文部分内容阅读
视频人物社交关系抽取是研究如何识别出视频中的人物实体,分析和推断人物之间是否存在社交关系,存在何种类型的社交关系,并且以结构化的形式呈现。作为信息抽取的一项重要任务,视频人物社交关系抽取有助于视频内容理解、人物追踪、角色发现等,为知识发现、公安监察、广告投放等提供重要的社会和商业价值,逐渐成为国内外的研究热点。由于视频中人物交互的复杂性和抽象性,视频数量巨大等因素影响,视频人物社交关系抽取面临以下四个方面的挑战:1)如何从复杂视频中抽取完整准确的人物社交关系网络;2)如何利用多视角特征的融合来解决底层像素与高层社交关系语义之间的鸿沟问题;3)如何挖掘视频人物交互的时序特征来提高人物关系识别准确率;4)海量视频中人物社交关系抽取的高效计算问题。因此,针对上述挑战,本文从视频人物关系网络构建和视频人物社交关系识别两个方面提出了一系列模型和方法,设计并实现了基于并行计算架构的视频人物关系抽取相关算法。本文的主要贡献如下:(1)基于故事分割的人物关系网络构建。首先利用人脸检测与识别方法识别视频帧中的人物,生成视频人物节点集合。其次,提出一种基于视频层次特征的故事分割算法,该算法根据视频内容特征的连贯性对视频进行故事分割。然后,基于故事分割结果利用高斯加权计算人物关系权重,减少故事分割点前后人物关系计算不准确的现象,并且融合分别从视频和字幕文本中提取的人物关系网络。最后,分析网络中的人物社区和重要人物。以一部电视剧和三部电影视频为实验数据验证该方法能够从视频数据中构建更加准确和完整的人物社交关系网络。(2)基于多视角特征融合的人物社交关系识别。首先,为了解决缺乏人物关系分析的视频数据集的问题,本文构建了一个人物社交关系标注的视频数据集。其次,本文提出两种基于多视角特征融合的视频人物社交关系识别方法,完善单一视角特征不能很好地解决底层像素与高层社交语义之间的鸿沟问题。第一个是多流特征融合模型,提取视频的RGB、光流图像和音频的高层语义特征,并利用逻辑回归执行后融合操作对视频人物社交关系分类。第二个是基于注意力机制的多视角特征融合模型,利用注意力机制对不同视角特征赋以不同的权重,并引入一个张量融合层来融合不同视角的特征。(3)基于时空细粒度特征的人物社交关系识别。本文提出基于注意力机制的时序学习模型,从细粒度角度挖掘视频人物交互的时序特征。首先,利用基于注意力机制的多特征融合,从时序细粒度角度融合同一时刻的不同特征,以建立尽量完善的人物交互时序特征描述。其次,设计基于全局和局部序列特征的注意力时序网络。该网络自动分割视频的镜头边界,并通过统计镜头特征来得到视频的全局特征。引入注意力机制对更能体现人物社交关系特征的视频帧或片段赋以更高的权重值,从而提高人物关系识别的准确率。(4)基于并行计算平台的视频人物社交关系抽取相关算法的设计与实现。首先,本文设计了一个基于Hadoop和Spark并行计算平台的视频人物社交关系抽取框架。该框架支持长视频的分布式存储与管理,支持基于GPU训练的深度学习算法,提高海量视频处理效率。其次,我们设计并实现视频人物社交关系抽取相关的并行算法,包括视频关键帧的提取、特征的提取、人脸数据的分析、人物社交关系抽取等,在保证准确率的同时,降低视频人物社交关系抽取的时间开销。最后,在公开视频数据集上验证了框架和算法的有效性。本文对视频人物社交关系抽取的关键技术问题开展研究,所提出的方法和模型在视频人物关系数据集上取得了目前最好的结果,提升了视频人物社交关系抽取的准确性。