论文部分内容阅读
随着互联网的飞速发展,大量网页内容的重复给人们带来了不便。在过去的十多年中,在线视频量呈指数增长,越来越多的人参与到了video-related活动,用户花在视频采集、编辑、上传、搜索以及查看的时间达到了空前水平。大规模的视频发布和分享,也使得近似重复内容频现的现象加重。于是,近似重复视频的检索(Near-Duplicate Video Retrieval,NDVR)成为了诸多新任务的关键。面对这种大量重复数据存在于网络中的现状,人们纷纷提出了诸多网页查重的方法,但是专门用于去除近似重复视频网页的方法却屈指可数。于是,本文针对含有内嵌字幕的视频,以其本身就是视频画面一部分内容的内嵌字幕为去重依据,提出一种基于内嵌字幕的网页视频去重方法,采用与视频内容具有高匹配性的内嵌字幕的文本信息,来完成去重工作。本文的主要研究工作如下:(1)抓取网页视频。本文所研究的去重方法是基于内嵌字幕进行的,那么内嵌字幕的提取自然就是最基本的工作,也是十分关键的步骤。于是,首先对如何完成自动提取视频内嵌字幕的工作进行探究,从而获取到字幕的文本文件。(2)获取内嵌字幕相似度。由于内嵌字幕具有不变性,故其文本文字的顺序必定是一致的,而LCS(Longest Common Subsequences最长公共子序列)算法严格有序,足以完成相似度的计算。于是采用LCS算法并加以实现,使之能符合本研究,得到两个内嵌字幕文本文件比较后的相似度。(3)设定去重标准。视频的字幕文本文件是根据视频内嵌字幕提取而来,而内嵌字幕又是视频画面的一部分,所以,从理论上说,两个重复视频的字幕应该完全一致,即去重标准应定为100%。但是,由于提取内嵌字幕时采用的是光学OCR的方法,在去除噪声影响过程中参数的设置会使得即使是两个相同内容的视频,若其分辨率等不同,提取出来的字幕也会有所偏差。另一方面,一些视频是其他视频的一部分,足够大时我们认为它们也重复。于是,实际上,一定的偏差是应该被允许的。我们采用实验数据以及数理统计知识,得到最能准确界定去重标准的值。(4)根据提出的基于内嵌字幕去除近似重复视频网页的思路,设计并实现了一个近似视频去重系统。在最后的实验部分,先从宏观上实现了系统总体结构,再进行详细设计,实现了系统的模块,最后综述了重要模块的功能及具体处理过程和实现细节。(5)为了验证所提出方法的有效性,对网络上采集次数排名前十的电影进行搜索,然后采用两种不同的方法进行去重,一种是现有的基于文件标题特征的去重方法,另一种则是本文所提出的依据内嵌字幕进行去重的方法,观察两种方法的再去重效果。实验结果表明,依据内嵌字幕对网络视频去重确实比已有方法更较为有效。