论文部分内容阅读
随着互联网和硬件存储能力的快速发展,网络中视频数据急剧增加。因此,建立有效的自动化的视频数据管理方法和查找方法成为越来越迫切的需求。与图片和文本相比,视频中保存了更多的信息,因此对视频进行检索也更具挑战性。目前视频检索主要包含特征提取,相似性排序,重排序几个过程。本文主要对基于图的重排序方法进行研究,提出了基于TTNG建图方法的最短边聚类方法,并将其应用到多特征融合的重排方法中。并以该方法为基础,提出了一种基于人体运动的视频检索框架。首先,本文提出了一个全新的人体运动数据集:RGB-D人体运动-情绪数据集,本数据集以情绪为标签,分为快乐,愤怒,恐惧,厌恶,悲伤,惊讶和平静七个类别,共4224个样本。与其他目前常用的人体运动数据集相比,本数据集具有背景纯净,相机和灯光固定,多角度同步,RGB和深度视频同步,只设定情境而不设定表演动作等特点。本文的检索工作都是在该数据集上完成的。在视频检索的过程中,影响检索结果的异常值主要分为两类:与大部分样本都不相关的离群点和在距离上与查询样本相近但是属于别的类别的样本。孙木鑫等人提出的TTNG算法能较好地解决上诉第一种异常值,为了解决第二种异常值,本文在其基础上提出了最短边聚类算法。并通过实验证明了该算法的有效性。为了进一步提高检索效果,本文将TTNG算法和最短边聚类算法应用到多特征的重排序方法中,将RGB和D特征进行融合。并对该方法进行整合,提出了一种基于人体姿态和行为的视频检索框架。此外,为了提高本框架的时间性能,本文提出了针对最短边聚类算法的两种改进方法:只对询问q的近邻集合进行聚类,通过减少参与聚类的样本数量减少聚类的时间,同时排除了距离q太远的节点对结果的影响;为了避免多次对集合间距离进行更新,本文提出了一种类似并查集的聚类方法。经过改进后,本文视频检索框架的时间性能有了明显提高。