论文部分内容阅读
现有的视频去重技术多样,但字幕这一与视频内容能高度匹配的重要信息并未被考虑到其中。提出一种针对含内嵌字幕视频进行去重的方法,并在三大视频网页中得到了该方法的再去重效果。首先将相应网页视频中的字幕经过OTC处理将其文档化,再规范文档,最后设定一个界值,对网页进行去重筛选。类比于网页文本的去重方法,基于文本内容的去重工作可以大大改善去重的效果,考虑到视频中人物对话内容的唯一性,我们可以根据视频字幕内容来进行去重,从而得到更为精准的视频去重结果。