论文部分内容阅读
随着互联网技术的发展以及人们对电视电影技术的不懈追求,视频网站在近几年得到了飞速的发展。不管是P2P直播网站或是BT下载站,以及本地播放软件等,都成为了视频行业的推动力,特别是网络视频行业,网络视频已经成为中国互联网的主要应用之一,过去几年,产值都在逐年增加,未来几年仍将飞速发展。但是对于个人和企业来说,视频资源都是一个不可或缺的元素,获取批量视频资源更是困难重重,因此研究国内外主流视频网站的视频下载方法并且搭建系统下载这些视频资源显得尤为重要,具有很大的理论意义和实际价值。本文对当前主流的视频行业的发展进行简单介绍,在介绍网络爬虫、服务器分享数据、视频下载链接的隐藏等理论的基础上,提出要研究分析国内外主流视频网站的下载方法,并且针对每一个网站的视频的下载方法给出分析过程,然后基于这些下载方法的研究搭建一个分布式视频抓取系统,介绍系统的总体框架和详细设计过程,解决企业和个人的需要。首先,介绍了分布式抓取项目中经常使用的Perl模块的内容,以及网络爬虫的原理性的知识,阐述当前视频网站下载链接的隐藏方式和不同协议。其次对分布式系统中数据共享的方式和如何使用开源工具来处理视频的下载和合并等操作进行了说明。最后,重点介绍运用httpwatch如何分析国内外主流的视频网站的视频下载地址。其次,根据下载地址分析的结果,对不同的下载任务设计一个统一的数据格式,处理共享数据,搭建分布式的视频抓取系统。结合这些分布式的下载任务,详细介绍了分布式系统的整体架构和数据的保存,最后,根据系统的整体架构以及文件共享的相关原理,分析了每一个模块的详细设计过程,并且展示了项目搭建以来的成果。本文所研究的国内外主流的视频网站下载地址的方法适用于国内外所有的个人用户和企业,搭建的分布式视频抓取项目也适用于所有的个人和企业,如果需要补充视频资源,增加个人视频收藏,保存历史数据,只要不产生版权原因,这些都将给他们带来极大的推进作用。