基于内嵌字幕的近似视频网页去重研究与实现

来源 :北京工业大学 | 被引量 : 4次 | 上传用户:fengkg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,大量网页内容的重复给人们带来了不便。在过去的十多年中,在线视频量呈指数增长,越来越多的人参与到了video-related活动,用户花在视频采集、编辑、上传、搜索以及查看的时间达到了空前水平。大规模的视频发布和分享,也使得近似重复内容频现的现象加重。于是,近似重复视频的检索(Near-Duplicate Video Retrieval,NDVR)成为了诸多新任务的关键。面对这种大量重复数据存在于网络中的现状,人们纷纷提出了诸多网页查重的方法,但是专门用于去除近似重复视频网页的方法却屈指可数。于是,本文针对含有内嵌字幕的视频,以其本身就是视频画面一部分内容的内嵌字幕为去重依据,提出一种基于内嵌字幕的网页视频去重方法,采用与视频内容具有高匹配性的内嵌字幕的文本信息,来完成去重工作。本文的主要研究工作如下:(1)抓取网页视频。本文所研究的去重方法是基于内嵌字幕进行的,那么内嵌字幕的提取自然就是最基本的工作,也是十分关键的步骤。于是,首先对如何完成自动提取视频内嵌字幕的工作进行探究,从而获取到字幕的文本文件。(2)获取内嵌字幕相似度。由于内嵌字幕具有不变性,故其文本文字的顺序必定是一致的,而LCS(Longest Common Subsequences最长公共子序列)算法严格有序,足以完成相似度的计算。于是采用LCS算法并加以实现,使之能符合本研究,得到两个内嵌字幕文本文件比较后的相似度。(3)设定去重标准。视频的字幕文本文件是根据视频内嵌字幕提取而来,而内嵌字幕又是视频画面的一部分,所以,从理论上说,两个重复视频的字幕应该完全一致,即去重标准应定为100%。但是,由于提取内嵌字幕时采用的是光学OCR的方法,在去除噪声影响过程中参数的设置会使得即使是两个相同内容的视频,若其分辨率等不同,提取出来的字幕也会有所偏差。另一方面,一些视频是其他视频的一部分,足够大时我们认为它们也重复。于是,实际上,一定的偏差是应该被允许的。我们采用实验数据以及数理统计知识,得到最能准确界定去重标准的值。(4)根据提出的基于内嵌字幕去除近似重复视频网页的思路,设计并实现了一个近似视频去重系统。在最后的实验部分,先从宏观上实现了系统总体结构,再进行详细设计,实现了系统的模块,最后综述了重要模块的功能及具体处理过程和实现细节。(5)为了验证所提出方法的有效性,对网络上采集次数排名前十的电影进行搜索,然后采用两种不同的方法进行去重,一种是现有的基于文件标题特征的去重方法,另一种则是本文所提出的依据内嵌字幕进行去重的方法,观察两种方法的再去重效果。实验结果表明,依据内嵌字幕对网络视频去重确实比已有方法更较为有效。
其他文献
近年来,随着互联网与计算机技术的快速发展,人们利用新技术生产、获取、存储数据的能力有了很大的提升,各领域都积累了相当大规模的、存储形式各异的数据。而这些数据里往往
由于网络电话VoIP (Voice over Internet Protocol)可以显著减少长途通话的费用而越来越受重视。H.323协议描述了在不提供可靠服务质量的包交换网络(PBN)上提供多媒体通信服
目前,IPv6技术已逐步走向成熟,IPv6网络规模正在扩大,一些国家已经建成了纯IPv6骨干网络。IPv6网络正逐步走向实用,出现了大规模IPv4网络通过IPv6网络互连的需求。隧道机制作为IP
“软件人”是具有拟人智能的、生存并活动于计算机网络世界中的一类软件人工生命,是一种“虚拟机器人”,具有拟人属性、拟人功能、拟人行为和拟人结构。“软件人”概念的提出为
广播是无线自组织网络(简称无线自组网)中最基本的数据传输方式之一,常用于消息扩散、路由建立、数据查询、服务发现等多种场景,是无线自组网的一个重要研究方向。近年来,作为一
IMS即IP多媒体子系统,是一种定义在IP技术基础上的网络体系架构,可以提供语音视频等多媒体服务,是为业界公认的未来互联网发展的关键技术架构。运营商采用了多种技术确保IMS
随着计算机网络的迅速发展,网络设备的种类和数量越来越多,网络结构变得越来越复杂。如何更加有效地管理网络设备、保障网络的正常运行,以及如何设计高效、稳定、通用、可扩展的
随着集成电路设计的规模越来越大,设计验证的重要性越来越突出。由于具有良好的可扩展性,模拟验证一直是功能验证的主要手段。然而随着设计复杂性的持续增长,模拟验证的不完备性
信息融合算法是信息融合测试评估体系中重要的评测对象。如何复用信息融合算法,并以此提高算法开发过程中的自动化程度和效率,是信息融合领域中研究的一个重点和难点。   根
在对软件产品依赖度日益增加的今天,软件测试已经成为软件开发过程中极其重要的环节。其中,回归测试作为普遍的保证软件质量的测试方法引起了越来越多的关注,主要原因在于回归测