基于Hadoop的视频爬虫系统的设计与实现

被引量 : 0次 | 上传用户:guozhi1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的迅猛发展,网络使用人群日益扩大,数字媒体作品数量快速增长。面对网络上如此海量的媒体作品,版权保护成为了一个亟待解决的问题。运用拷贝检测技术实现内容拷贝追踪,是一种行之有效的数字内容版权保护方案。而如何获取海量媒体资源是拷贝追踪技术中的一个难点。尤其是视频媒体,数量大,更新快,内容多,下载难。如今快速发展的云计算在海量数据处理方面呈现了极大的优势,鉴于此,本文利用Hadoop框架实现分布式视频爬虫系统,为拷贝检测系统收集待检视频数据集。本文重点研究了Hadoop框架的计算模型MapReduce,以及分布式文件系统HDFS,并分析了分布式爬虫的关键技术,讨论了将Hadoop框架用于分布式爬虫系统的优势。由此设计并实现了基于Hadoop的视频爬虫系统。利用Hadoop框架,实现了一个结点集中管理,多个子结点并行工作的系统架构,同时总结点与子结点的心跳检测机制,有效解决了子结点动态退出的问题。运用MapReduce计算模型实现具体的网页抓取、分析、去重,下载等计算任务,并利用广度优先搜索策略,以及基于磁盘的去重机制,保证了爬虫系统的高效爬行。同时分析如何对URL集进行分区,以保证各爬行结点负载均衡。HDFS分布式文件系统存储各阶段计算任务的结果,以备下个计算任务使用,并运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性。针对目前主流视频网站的视频下载难题,以腾讯等视频网站为例进行详细说明,给出了视频下载的解决方案。最后,通过配置多个爬行结点,对基于Hadoop的视频爬虫系统进行功能和性能测试,测试结果验证了利用Hadoop架构实现分布式爬虫系统的可行性、高效性。同时对系统中需要继续研究的问题提出了展望。
其他文献
长期以来,在我国的高中英语教学中,写作一直是一个让教师和学生都感到头疼的问题。教师抱怨写作是一个“费力不讨好”的工作,而学生也对写作充满了畏惧和排斥。有些学生虽然学了
非法证据即指以不合法的手段获取的证据。目前,我国确立了强制性的排除、自由裁量的排除和不能补正解释的排除三种非法证据排除的模式。我国非法证据排除程序的实质不足主要
我国历来高度重视职业教育,但受用人单位及现行社会风气的影响,中等职业学校生源素质良莠不齐,学生不良行为习惯严重,如果不及时帮助其改善,将不仅影响学生的人生前途,还会影响社会
随着市场经济体制的不断完善与发展,我国的传媒经济进入了最为活跃的发展期。传媒市场机制由政府主管市场向政府监管市场过度,由媒体垄断市场向媒体产业逐步开放市场过渡,传
随着"中国制造2025"规划的提出,智能化生产理念受到越来越多的重视,其中物流行业就是一个代表。传统的物流作业模式由于存在劳动力成本高、安全性较差、效率低等问题,已经无
误差补偿技术是提高数控机床加工精度的重要技术手段之一,与之密切相关的研究方向主要有:误差的测量与辨识、误差模型的建立以及误差补偿的实施方法。本课题在“国家科技重大专
后金融危机时代的今天,全球经济持续低迷,欧债危机虽然阴霾未散,但相对稳定,而人民币则持续升值,这些因素都助力我国企业迎来海外并购的黄金时机。我国企业也抓住机遇,积极参与,在20
90后大学生政治信仰主要表现为对马克思主义的信仰、对共产主义的信念、对党和政府的信任、对改革开放和中国特色社会主义现代化建设的信心。90后大学生的政治信仰不仅影响个
钢板在轧制过程中,由于生产工艺不成熟或者生产设备落后等原因,会在表面形成各种缺陷,这些缺陷会降低钢板的成材率,给钢材生产企业带来巨大的经济损失。而铸坯作为钢板生产过程中
随着社会主义市场经济体制的发展,媒体文化事业逐步由“事业型模式”向“产业型模式”转变,媒体单位之间的竞争也越来越激烈。M广播电视台①是一家经济欠发达地区的媒体单位,目