基于内嵌字幕的近似视频网页去重研究与实现

来源 :北京工业大学 | 被引量 : 4次 | 上传用户：fengkg

【摘要】

：

随着互联网的飞速发展,大量网页内容的重复给人们带来了不便。在过去的十多年中,在线视频量呈指数增长,越来越多的人参与到了video-related活动,用户花在视频采集、编辑、上

【作者】

：

袁圆

【机构】

：

北京工业大学

【出处】

：

北京工业大学

【发表日期】

：

2015年01期

【关键词】

：

近似视频网页内嵌字幕去重 LCS

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的飞速发展,大量网页内容的重复给人们带来了不便。在过去的十多年中,在线视频量呈指数增长,越来越多的人参与到了video-related活动,用户花在视频采集、编辑、上传、搜索以及查看的时间达到了空前水平。大规模的视频发布和分享,也使得近似重复内容频现的现象加重。于是,近似重复视频的检索(Near-Duplicate Video Retrieval,NDVR)成为了诸多新任务的关键。面对这种大量重复数据存在于网络中的现状,人们纷纷提出了诸多网页查重的方法,但是专门用于去除近似重复视频网页的方法却屈指可数。于是,本文针对含有内嵌字幕的视频,以其本身就是视频画面一部分内容的内嵌字幕为去重依据,提出一种基于内嵌字幕的网页视频去重方法,采用与视频内容具有高匹配性的内嵌字幕的文本信息,来完成去重工作。本文的主要研究工作如下:(1)抓取网页视频。本文所研究的去重方法是基于内嵌字幕进行的,那么内嵌字幕的提取自然就是最基本的工作,也是十分关键的步骤。于是,首先对如何完成自动提取视频内嵌字幕的工作进行探究,从而获取到字幕的文本文件。(2)获取内嵌字幕相似度。由于内嵌字幕具有不变性,故其文本文字的顺序必定是一致的,而LCS(Longest Common Subsequences最长公共子序列)算法严格有序,足以完成相似度的计算。于是采用LCS算法并加以实现,使之能符合本研究,得到两个内嵌字幕文本文件比较后的相似度。(3)设定去重标准。视频的字幕文本文件是根据视频内嵌字幕提取而来,而内嵌字幕又是视频画面的一部分,所以,从理论上说,两个重复视频的字幕应该完全一致,即去重标准应定为100%。但是,由于提取内嵌字幕时采用的是光学OCR的方法,在去除噪声影响过程中参数的设置会使得即使是两个相同内容的视频,若其分辨率等不同,提取出来的字幕也会有所偏差。另一方面,一些视频是其他视频的一部分,足够大时我们认为它们也重复。于是,实际上,一定的偏差是应该被允许的。我们采用实验数据以及数理统计知识,得到最能准确界定去重标准的值。(4)根据提出的基于内嵌字幕去除近似重复视频网页的思路,设计并实现了一个近似视频去重系统。在最后的实验部分,先从宏观上实现了系统总体结构,再进行详细设计,实现了系统的模块,最后综述了重要模块的功能及具体处理过程和实现细节。(5)为了验证所提出方法的有效性,对网络上采集次数排名前十的电影进行搜索,然后采用两种不同的方法进行去重,一种是现有的基于文件标题特征的去重方法,另一种则是本文所提出的依据内嵌字幕进行去重的方法,观察两种方法的再去重效果。实验结果表明,依据内嵌字幕对网络视频去重确实比已有方法更较为有效。

其他文献

基于GPU的并行关联规则挖掘算法的设计与实现

近年来,随着互联网与计算机技术的快速发展,人们利用新技术生产、获取、存储数据的能力有了很大的提升,各领域都积累了相当大规模的、存储形式各异的数据。而这些数据里往往

学位

关联规则GPUCUDA并行计算

基于H.323的网守改进与实现

由于网络电话VoIP (Voice over Internet Protocol)可以显著减少长途通话的费用而越来越受重视。H.323协议描述了在不提供可靠服务质量的包交换网络(PBN)上提供多媒体通信服

学位

VoIPH.323网守RASH.225.0

Linux下4over6隧道技术研究

目前，IPv6技术已逐步走向成熟，IPv6网络规模正在扩大，一些国家已经建成了纯IPv6骨干网络。IPv6网络正逐步走向实用，出现了大规模IPv4网络通过IPv6网络互连的需求。隧道机制作为IP

学位

IPv6网络4over6隧道内核驱动Linux系统网络互连

基于“软件人”的入侵检测系统的研究与开发

“软件人”是具有拟人智能的、生存并活动于计算机网络世界中的一类软件人工生命，是一种“虚拟机器人”，具有拟人属性、拟人功能、拟人行为和拟人结构。“软件人”概念的提出为

学位

计算机网络网络安全入侵检测工具软件

无线自组网睡眠调度感知的广播问题研究

广播是无线自组织网络(简称无线自组网)中最基本的数据传输方式之一，常用于消息扩散、路由建立、数据查询、服务发现等多种场景，是无线自组网的一个重要研究方向。近年来，作为一

学位

无线自组织网络睡眠调度度感知广播算法传输特性

IMS接入侧安全机制的研究与设计

IMS即IP多媒体子系统,是一种定义在IP技术基础上的网络体系架构,可以提供语音视频等多媒体服务,是为业界公认的未来互联网发展的关键技术架构。运营商采用了多种技术确保IMS

学位

IMS 接入侧SIP身份认证保密通信合法监听

基于OSGi的网络设备监控系统研究与实现

随着计算机网络的迅速发展，网络设备的种类和数量越来越多，网络结构变得越来越复杂。如何更加有效地管理网络设备、保障网络的正常运行，以及如何设计高效、稳定、通用、可扩展的

学位

网络设备管理监控系统OSGi框架SNMP面向服务体系结构

数字集成电路设计验证的量化评估方法研究

随着集成电路设计的规模越来越大，设计验证的重要性越来越突出。由于具有良好的可扩展性，模拟验证一直是功能验证的主要手段。然而随着设计复杂性的持续增长，模拟验证的不完备性

学位

设计验证量化评估可观测性分析缺项错误模型错误屏蔽概率数字集成电路

基于设计模式的位置级信息融合算法建模开发平台的研究与实现

信息融合算法是信息融合测试评估体系中重要的评测对象。如何复用信息融合算法，并以此提高算法开发过程中的自动化程度和效率，是信息融合领域中研究的一个重点和难点。　　根

学位

位置级信息融合算法建模设计模式正逆向工程UML类图代码自动生成

回归测试的测试用例集优化研究

在对软件产品依赖度日益增加的今天，软件测试已经成为软件开发过程中极其重要的环节。其中，回归测试作为普遍的保证软件质量的测试方法引起了越来越多的关注，主要原因在于回归测

学位

回归测试优化测试用例集约简测试用例优先级RTB算法黑盒测试软件测试

基于内嵌字幕的近似视频网页去重研究与实现

与本文相关的学术论文