基于Hadoop的视频爬虫系统的设计与实现

被引量 : 0次 | 上传用户：guozhi1988

【摘要】

：

随着网络的迅猛发展，网络使用人群日益扩大，数字媒体作品数量快速增长。面对网络上如此海量的媒体作品，版权保护成为了一个亟待解决的问题。运用拷贝检测技术实现内容拷贝追踪，是

【作者】

：

邱荷花

【发表日期】

：

2013年期

【关键词】

：

Hadoop MapReduce Hadoop分布式文件系统视频爬虫

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络的迅猛发展，网络使用人群日益扩大，数字媒体作品数量快速增长。面对网络上如此海量的媒体作品，版权保护成为了一个亟待解决的问题。运用拷贝检测技术实现内容拷贝追踪，是一种行之有效的数字内容版权保护方案。而如何获取海量媒体资源是拷贝追踪技术中的一个难点。尤其是视频媒体，数量大，更新快，内容多，下载难。如今快速发展的云计算在海量数据处理方面呈现了极大的优势，鉴于此，本文利用Hadoop框架实现分布式视频爬虫系统，为拷贝检测系统收集待检视频数据集。本文重点研究了Hadoop框架的计算模型MapReduce,以及分布式文件系统HDFS，并分析了分布式爬虫的关键技术，讨论了将Hadoop框架用于分布式爬虫系统的优势。由此设计并实现了基于Hadoop的视频爬虫系统。利用Hadoop框架，实现了一个结点集中管理，多个子结点并行工作的系统架构，同时总结点与子结点的心跳检测机制，有效解决了子结点动态退出的问题。运用MapReduce计算模型实现具体的网页抓取、分析、去重，下载等计算任务，并利用广度优先搜索策略，以及基于磁盘的去重机制，保证了爬虫系统的高效爬行。同时分析如何对URL集进行分区，以保证各爬行结点负载均衡。HDFS分布式文件系统存储各阶段计算任务的结果，以备下个计算任务使用，并运用多处备份机制，使得在某个结点退出时转移任务集，不影响整个系统的稳定性和有效性。针对目前主流视频网站的视频下载难题，以腾讯等视频网站为例进行详细说明，给出了视频下载的解决方案。最后，通过配置多个爬行结点，对基于Hadoop的视频爬虫系统进行功能和性能测试，测试结果验证了利用Hadoop架构实现分布式爬虫系统的可行性、高效性。同时对系统中需要继续研究的问题提出了展望。

其他文献

写长法在高中英语写作教学中的实证研究

长期以来，在我国的高中英语教学中，写作一直是一个让教师和学生都感到头疼的问题。教师抱怨写作是一个“费力不讨好”的工作，而学生也对写作充满了畏惧和排斥。有些学生虽然学了

学位

高中英语教学写长法建构主义写作水平

非法证据排除程序研究

非法证据即指以不合法的手段获取的证据。目前,我国确立了强制性的排除、自由裁量的排除和不能补正解释的排除三种非法证据排除的模式。我国非法证据排除程序的实质不足主要

学位

非法证据排除程序构成要素完善构想

通过班主任工作改善中职生行为习惯的行动研究

我国历来高度重视职业教育，但受用人单位及现行社会风气的影响，中等职业学校生源素质良莠不齐，学生不良行为习惯严重，如果不及时帮助其改善，将不仅影响学生的人生前途，还会影响社会

学位

班主任工作中职生行为习惯

FS电台人力资源绩效考评研究

随着市场经济体制的不断完善与发展,我国的传媒经济进入了最为活跃的发展期。传媒市场机制由政府主管市场向政府监管市场过度,由媒体垄断市场向媒体产业逐步开放市场过渡,传

学位

传媒KPI人力资源员工绩效考评

仓储搬运机器人控制系统设计与实现

随着"中国制造2025"规划的提出,智能化生产理念受到越来越多的重视,其中物流行业就是一个代表。传统的物流作业模式由于存在劳动力成本高、安全性较差、效率低等问题,已经无

学位

仓储搬运机器人控制系统惯性导航无线通信二维码

数控机床误差测量、建模及网络群控实时补偿系统研究

误差补偿技术是提高数控机床加工精度的重要技术手段之一，与之密切相关的研究方向主要有：误差的测量与辨识、误差模型的建立以及误差补偿的实施方法。本课题在“国家科技重大专

学位

数控机床热误差误差测量误差建模误差补偿网络群控

基于公司治理与并购绩效关系研究中国海外并购对策—惠普并购案的启示

后金融危机时代的今天，全球经济持续低迷，欧债危机虽然阴霾未散，但相对稳定，而人民币则持续升值，这些因素都助力我国企业迎来海外并购的黄金时机。我国企业也抓住机遇，积极参与，在20

学位

海外并购公司治理董事会机制惠普公司并购绩效

90后大学生政治信仰缺失研究

90后大学生政治信仰主要表现为对马克思主义的信仰、对共产主义的信念、对党和政府的信任、对改革开放和中国特色社会主义现代化建设的信心。90后大学生的政治信仰不仅影响个

学位

90后大学生政治信仰缺失

基于机器视觉的铸坯表面缺陷检测算法研究

钢板在轧制过程中，由于生产工艺不成熟或者生产设备落后等原因，会在表面形成各种缺陷，这些缺陷会降低钢板的成材率，给钢材生产企业带来巨大的经济损失。而铸坯作为钢板生产过程中

学位

铸坯表面缺陷局部直方图均衡化多分辨率主成分分析法支持向量机

广播电视台人力资源管理激励机制研究

随着社会主义市场经济体制的发展，媒体文化事业逐步由“事业型模式”向“产业型模式”转变，媒体单位之间的竞争也越来越激烈。M广播电视台①是一家经济欠发达地区的媒体单位，目

学位

激励机制人力资源广播电视事业M台

基于Hadoop的视频爬虫系统的设计与实现

其他学术论文