论文部分内容阅读
随着网络和多媒体技术的发展,每天都有大量的视频数据需要发布和传播。伴随而来的数字视频版权保护问题也渐渐成为困扰视频提供商的难题。尽管也随之产生了诸如物理防拷贝技术和数字水印等技术,但还是无法阻止多媒体信息复制与传播以及无法完全解决数字视频在已经被非法传播之后的版权鉴定问题。因此基于内容的同源视频检索(Content-based video copy detection)技术受到广泛关注。本文从底层视觉特征提取、视频的分级匹配以及结果融合机制几个方面对同源视频检索进行了深入研究,提出了一些新的算法,主要工作如下:在底层视觉特征的提取方面,融合全局和局部特征,采用了基于Bag-of-Visual-Words的SURF (Speeded Up Robust Features)关键点投影算法,有效地量化高维关键点特征,继而引入binary signature方法来弥补因量化造成的信息丢失,提高了匹配的速度和精度。此外,还提出了一种基于密度采样的码书初始中心点选择方法,提高了码书训练的时间效率和码书性能,实验验证了算法的有效性。在视频的匹配策略中,提出了基于分块梯度直方图的粗匹配和基于IOM (Intensity Ordinal Measurements)和SURF的精匹配相结合的方式实现了帧匹配;其次,利用序歹Smith-Waterman算法完成视频段的匹配。针对匹配结果,提出了一种分层的融合策略,首先利用全局特征IOM来筛选结果,随后利用局部特征SURF对候选集进行精细搜索。TRECVID 2008评测结果表明,本系统的性能高于所有参赛队的平均水平,验证了算法的有效性。此外,本文还开发了一个基于SVM的商品货号识别系统。首先将货号分割成字符,然后对字符标准化后提取鲁棒性的Haar-like、梯度方向直方图特征,并利用SVM进行多类One-against-all分类器学习。在60幅图片约600字符数上的实验表明,单个字符的准确率超过95%,证明提出的识别算法是有效的。