面向Web视频的网络爬虫的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：jessieharbin

【摘要】

：

计算机硬件的处理能力的不断增强以及网络带宽逐年的扩容，使人们在网络上在线收看视频甚至是高清视频成为现实。网络视频开始逐渐取代了传统电视的地位，成为人们观看视频的第一

【作者】

：

陈实

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2012年期

【关键词】

：

web视频检索地址解析网络爬虫搜索引擎

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

计算机硬件的处理能力的不断增强以及网络带宽逐年的扩容，使人们在网络上在线收看视频甚至是高清视频成为现实。网络视频开始逐渐取代了传统电视的地位，成为人们观看视频的第一选择。因此，人们需要一种工具来达到对网络视频进行快速检索的目的。　　目前我们常用的搜索引擎大多数都是通过关键字来进行检索，但是对于具有丰富信息的视频数据来说，用户很难用精确的语言来概括视频的特征，使用语言来描述具有一定的主观性，通过这种方式往往会搜出大量无用的信息，效率十分低下。因此，我们需要一种更直观的方式来对网络视频进行检索。基于内容的web视频搜索引擎正是在这样的需求下产生的。基于内容的视频检索技术，是通过对视频进行镜头检测，然后提取镜头关键帧，对特征进行提取后，利用视频特征进行检索的技术。网络爬虫是构建基于内容的web视频搜索引擎的基础，首先需要将网络中成千上万的视频数据通过爬虫收集起来，搜索引擎才能进一步对视频的内容进行分析处理，建立索引。　　本文以实现基于内容的视频搜索引擎为目的，深入研究了Heritrix爬虫的相关技术，流式传输技术及网络数据包的捕获技术。由于现在很多视频网站隐藏了视频的真实地址，通过查看地址栏的地址或解析HTML文本都无法得到视频的真实地址。因此，本文提出了通过分析视频服务器与本地网卡的网络交换数据包来获取视频下载地址的方法，在Heritrix爬虫的基础上实现了通过网络爬虫爬取视频文件的功能，设计出了面向web视频的网络爬虫。　　本文首先介绍了web视频搜索引擎系统的总体设计，分别介绍了视频信息获取模块、视频处理模块、视频分类模块和视频检索模块。通过对网络数据的捕捉和分析，达到了获取视频真实下载地址的目的。根据视频检索的需要，还实现了中文分词和视频标准化。针对爬虫爬行单个网站时不能充分发挥爬虫多线程运行的特点，改进了URL的分配策略，提高了爬虫的运行效率。最后对爬虫和整个系统性能进行了测试。

其他文献

基于Agent技术的网络教学系统的设计与实现

网络教育是随着现代信息技术发展而产生的一种新型的教育形式,鉴于目前的网络教学系统多数缺乏智能性、自适应性、自主性和各环节的互通性以及交互性,可以采用Agent技术对上

学位

教学Agent学生Agent教师Agent移动Agent

基于XML的网络测验系统的设计与实现

随着计算机互联网科技的不断进步,网络化教学已逐渐被教育工作者所认同,成为现今教育的一个重要发展方向。网络化教学评量也逐渐扮演着一个重要的角色。教学评量一方面为教师

学位

网络教学网络测验测验题库XMLRDB

移动数据库中移动事务处理的关键技术研究

计算技术和无线通讯技术的发展与结合使得一种全新的计算模式—移动计算模式成为现实。在移动计算环境下,用户使用便携式计算机通过无线通讯接口实现对信息网络的访问,而不受

学位

移动计算移动数据库事务处理并发控制

XML在关系数据库中存储技术的研究与实现

XML(eXtensible Markup Language)是继HTML之后发展起来的一个重要的Internet技术。已经成为Internet上数据表示和交换的新标准。随着Web应用的迅猛发展,XML数据量与日俱增。

学位

XML存储映射技术关系数据库标注映射知识库

前馈神经网络工作机理分析与学习算法

人工神经网络(ArtificialNeuralNetworks，ANN)是一个高复杂度的非线性系统，虽然从形式上模拟了人脑的学习结构，但由于所依赖的生物学理论基础尚不完善，因此人工神经网络不仅功能

学位

前馈神经网络决策树增量学习集成系统结构设计

基于重放的并发程序调试技术研究

随着并发程序日益广泛的使用,并发程序的调试也变得越发的重要。传统的循环调试技术主要是设置断点,多次执行源程序,逐步定位错误位置。因为顺序程序的执行结果主要取决于程

学位

并发程序并发调试进程消息队列通信追踪重放

视频编码理论与MPEG-4的DSP实现

视频压缩是多媒体通信中的核心技术，它不但关系到通信带宽，也关系到通信过程中的图像质量。随着多媒体技术在Internet网络上的广泛应用，视频压缩技术越加显得重要。对视频压缩技

学位

视频编码信息论MPEG-4DSP优化

IPv4/IPv6协议分析及过渡策略研究与实现

本文详细首先讨论了NAT-PT技术中的地址转换技术和协议转换技术。为了节省IPv4地址资源的采用了NAPT技术，协议转换根据SIIT中定义的IPv4/IPv6报头翻译和ICMP4/ICMP6的转换

学位

IPv6过渡机制套接口编程NAPT-PT转换网关

基于以太网交换机的802.1X协议扩展与实现

随着人们对网络带宽的要求和以太网技术的发展,以太网技术越来越多的被应用于宽带驻地网的建设。这对以介质共享为基础的以太网技术,在可运营和可管理方面提出了新的要求,对

学位

802.1X协议用户认证以太网交换机

视频中的文字信息提取

视频中所含的文字为描述和指示视频内容提供了十分丰富的信息。在一些情况下这些信息在多媒体载体中是独一无二的。视频文字信息抽取能够应用于基于高层语义的视频检索和浏览

学位

视频字符检测多媒体信息检索边缘检测文字分割信息提取

面向Web视频的网络爬虫的研究与实现

与本文相关的学术论文