论文部分内容阅读
随着多媒体和互联网技术的飞速发展,视频作为内容最丰富的媒体形式呈现出爆炸性增长,在大规模视频数据背景下,如何在带宽和计算成本的双重限制下,实现视频内容的快速检索,对各个信息领域都有深远意义,也具有重要的社会意义和商业价值。视频哈希技术是将高维度的视频信息映射成二进制低维表示的过程,可以降低视频匹配的计算量、视频计算的内存需求以及数据交互的带宽占用,从而实现视频信息的高速检索。高效的视频哈希应该具备:1)能够全面准确地表征视频的特征;2)能够保持感知鲁棒性、区分性的哈希映射;3)能够保持哈希性能的最佳码长。因此,要想实现在大规模视频检索中的实际应用,特征表征、哈希映射以及码长设定等方面的问题必须得到解决。本文致力于面向视频检索的哈希技术的性能优化,首先介绍了哈希技术的研究方法和研究现状;然后介绍了面向视频检索的哈希技术的系统组成和评价标准等基础知识;接着从率失真理论的角度入手,在保证哈希鲁棒性、区分性的基础上,研究最优哈希码长的获取;最后将深度学习用于视频特征的提取,提出了一种基于3D-CNN的视频哈希算法。本文的主要创新和贡献在以下两个方面:(1)提出了一种哈希码长的优化算法。近年来哈希算法吸引了越来越多的学者的关注,但哈希码长却没有得到足够的重视,哈希码长表示哈希的维度,对哈希算法的性能评估十分重要。该算法从碰撞概率和哈希码长之间的关系入手来定义最佳哈希码长,根据这个定义,只需极少部分的测试数据便可获取适合整个数据集的最优哈希码长。通过对测试数据的误码率、碰撞概率的数学建模,在保证哈希鲁棒性、区分性的基础上,获得最佳哈希码长。(2)提出了一种基于3D-CNN的视频哈希算法。传统哈希技术所采用的视频特征大都是基于研究者已有的视频处理的相关知识设计的特征,专业性强且特征维度小。该算法通过3D-CNN模型学习视频内容,通过多个相邻帧捕获运动信息,利用三维卷积核,在时间和空间两个维度上学习视频特征,这种特征定义为CNNF。基于这种3D-CNN的视频特征能够更好地表达视频的语义信息,适用于大规模视频检索的哈希技术。本文从视频特征入手,利用深度网络进行优化,获取能保持视频相似性的特征;从二值化过程入手,在保证区分性的基础上,对哈希码长做优化研究,以得到最优哈希码长。通过这些针对性的研究策略获得适用于大规模视频搜索的高效视频哈希,为视频哈希技术在公共安全、视频网站、移动搜索等领域的理论研究和实际应用提供参考。