面向Web视频的网络爬虫的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:jessieharbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机硬件的处理能力的不断增强以及网络带宽逐年的扩容,使人们在网络上在线收看视频甚至是高清视频成为现实。网络视频开始逐渐取代了传统电视的地位,成为人们观看视频的第一选择。因此,人们需要一种工具来达到对网络视频进行快速检索的目的。  目前我们常用的搜索引擎大多数都是通过关键字来进行检索,但是对于具有丰富信息的视频数据来说,用户很难用精确的语言来概括视频的特征,使用语言来描述具有一定的主观性,通过这种方式往往会搜出大量无用的信息,效率十分低下。因此,我们需要一种更直观的方式来对网络视频进行检索。基于内容的web视频搜索引擎正是在这样的需求下产生的。基于内容的视频检索技术,是通过对视频进行镜头检测,然后提取镜头关键帧,对特征进行提取后,利用视频特征进行检索的技术。网络爬虫是构建基于内容的web视频搜索引擎的基础,首先需要将网络中成千上万的视频数据通过爬虫收集起来,搜索引擎才能进一步对视频的内容进行分析处理,建立索引。  本文以实现基于内容的视频搜索引擎为目的,深入研究了Heritrix爬虫的相关技术,流式传输技术及网络数据包的捕获技术。由于现在很多视频网站隐藏了视频的真实地址,通过查看地址栏的地址或解析HTML文本都无法得到视频的真实地址。因此,本文提出了通过分析视频服务器与本地网卡的网络交换数据包来获取视频下载地址的方法,在Heritrix爬虫的基础上实现了通过网络爬虫爬取视频文件的功能,设计出了面向web视频的网络爬虫。  本文首先介绍了web视频搜索引擎系统的总体设计,分别介绍了视频信息获取模块、视频处理模块、视频分类模块和视频检索模块。通过对网络数据的捕捉和分析,达到了获取视频真实下载地址的目的。根据视频检索的需要,还实现了中文分词和视频标准化。针对爬虫爬行单个网站时不能充分发挥爬虫多线程运行的特点,改进了URL的分配策略,提高了爬虫的运行效率。最后对爬虫和整个系统性能进行了测试。
其他文献
网络教育是随着现代信息技术发展而产生的一种新型的教育形式,鉴于目前的网络教学系统多数缺乏智能性、自适应性、自主性和各环节的互通性以及交互性,可以采用Agent技术对上
随着计算机互联网科技的不断进步,网络化教学已逐渐被教育工作者所认同,成为现今教育的一个重要发展方向。网络化教学评量也逐渐扮演着一个重要的角色。教学评量一方面为教师
计算技术和无线通讯技术的发展与结合使得一种全新的计算模式—移动计算模式成为现实。在移动计算环境下,用户使用便携式计算机通过无线通讯接口实现对信息网络的访问,而不受
XML(eXtensible Markup Language)是继HTML之后发展起来的一个重要的Internet技术。已经成为Internet上数据表示和交换的新标准。随着Web应用的迅猛发展,XML数据量与日俱增。
人工神经网络(ArtificialNeuralNetworks,ANN)是一个高复杂度的非线性系统,虽然从形式上模拟了人脑的学习结构,但由于所依赖的生物学理论基础尚不完善,因此人工神经网络不仅功能
随着并发程序日益广泛的使用,并发程序的调试也变得越发的重要。传统的循环调试技术主要是设置断点,多次执行源程序,逐步定位错误位置。因为顺序程序的执行结果主要取决于程
视频压缩是多媒体通信中的核心技术,它不但关系到通信带宽,也关系到通信过程中的图像质量。随着多媒体技术在Internet网络上的广泛应用,视频压缩技术越加显得重要。对视频压缩技
本文详细首先讨论了NAT-PT技术中的地址转换技术和协议转换技术。为了节省IPv4地址资源的采用了NAPT技术,协议转换根据SIIT中定义的IPv4/IPv6报头翻译和ICMP4/ICMP6的转换
随着人们对网络带宽的要求和以太网技术的发展,以太网技术越来越多的被应用于宽带驻地网的建设。这对以介质共享为基础的以太网技术,在可运营和可管理方面提出了新的要求,对
视频中所含的文字为描述和指示视频内容提供了十分丰富的信息。在一些情况下这些信息在多媒体载体中是独一无二的。视频文字信息抽取能够应用于基于高层语义的视频检索和浏览