论文部分内容阅读
移动互联网的高速发展使得人们的生活变得越来越丰富,现代人分享生活的方式也逐渐多样化,从最早文字记录生活的方式,后来的图片,到如今视频已经成为我们最常用的分享途径,这同时也导致网上充斥着大量的近重复视频,海量的近重复视频所带来了许多问题,诸如用户搜索视频体验不佳、部分视频版权得不到保护、视频推荐不够准确等,这也给近重复视频检索技术带来了新的挑战。近些年来,哈希学习的技术逐渐被用来解决大规模近重复视频检索问题,哈希学习是指通过一些机器学习算法把数据压缩为二进制码的形式,在节省存储和通信开销的同时大大加快检索速度,在大规模视频内容检索领域十分适用。视频哈希学习的目标是把视频表示为二进制哈希码序列,使得原始视频数据库中的视频数据尽量保持原有的临近关系,即原本相似视频的哈希码尽量相似,非相似的视频对应的哈希码尽量不同。有效的哈希表示结果能够使得我们能够在非常有限的硬件资源下完成高效的计算,同时保证准确率。因此,哈希学习方案能够有效的解决上述大数据环境下的近重复视频检索问题,哈希学习方法也具有极大的研究价值。利用哈希学习的近重复视频的检索过程一般可以分为三个步:第一步,对原始视频提取关键帧,并从中提取特征(可提取多种类型的特征);第二步,利用哈希学习方法将每个视频所对应的多个特征融合并表示为一个实数向量;第三步,把得到的实数向量进行量化得到二进制哈希码作为一个视频的最后表示,并利用哈希码进行检索。其中,特征选择与提取在前两步中十分重要,好的特征对整个哈希学习过程将起到决定性作用,同时,特征的不足也将直接在检索结果中得到反应。其次,第三步中把得到的实数向量进行量化得到哈希码的过程也十分重要,量化的过程会涉及到信息损失,现有的方法对这一步的处理通常相对简单,例如直接选定一个阈值,阈值两侧的数值分别量化为0和1,这样的做法必然会造成过多的信息损失,从而影响最终的检索效果。我们的工作主要集中在第一步和第二步,目前的绝大多数方法仅仅提取了低层的视觉特征作为哈希学习的输入,然而与高层特征的方法相比,低层特征往往缺乏更丰富的语义内容,对原始视频的表示往往不够准确。针对这个问题,在这篇文章中,我们从特定的卷积神经网络中提取了中间层深度特征以及高级语义特征,另外,我们也提取了两种手工定义的低层特征,为了能够把这些不同层次的特征进行融合进而实现效果更好的近重复视频检索,我们利用了一种基于层次特征融合的哈希学习方法来全面的利用高低层特征的语义互补性,该方法通过联合学习多特征的特定线性变换,以非成对的方式寻求多个特征的单一判别式公共空间,最后,方法通过广义特征值的思想求解多重线性变换。实验结果表明,本方法与现有的方法相比能实现更好的效果,在使用更短的哈希码的同时达到更高的检索精度。