论文部分内容阅读
随着网络的迅猛发展,网络使用人群日益扩大,数字媒体作品数量快速增长。面对网络上如此海量的媒体作品,版权保护成为了一个亟待解决的问题。运用拷贝检测技术实现内容拷贝追踪,是一种行之有效的数字内容版权保护方案。而如何获取海量媒体资源是拷贝追踪技术中的一个难点。尤其是视频媒体,数量大,更新快,内容多,下载难。如今快速发展的云计算在海量数据处理方面呈现了极大的优势,鉴于此,本文利用Hadoop框架实现分布式视频爬虫系统,为拷贝检测系统收集待检视频数据集。本文重点研究了Hadoop框架的计算模型MapReduce,以及分布式文件系统HDFS,并分析了分布式爬虫的关键技术,讨论了将Hadoop框架用于分布式爬虫系统的优势。由此设计并实现了基于Hadoop的视频爬虫系统。利用Hadoop框架,实现了一个结点集中管理,多个子结点并行工作的系统架构,同时总结点与子结点的心跳检测机制,有效解决了子结点动态退出的问题。运用MapReduce计算模型实现具体的网页抓取、分析、去重,下载等计算任务,并利用广度优先搜索策略,以及基于磁盘的去重机制,保证了爬虫系统的高效爬行。同时分析如何对URL集进行分区,以保证各爬行结点负载均衡。HDFS分布式文件系统存储各阶段计算任务的结果,以备下个计算任务使用,并运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性。针对目前主流视频网站的视频下载难题,以腾讯等视频网站为例进行详细说明,给出了视频下载的解决方案。最后,通过配置多个爬行结点,对基于Hadoop的视频爬虫系统进行功能和性能测试,测试结果验证了利用Hadoop架构实现分布式爬虫系统的可行性、高效性。同时对系统中需要继续研究的问题提出了展望。