基于网络爬虫技术的多源下载系统的设计与实现

来源 :北京邮电大学 | 被引量 : 9次 | 上传用户:as78dfg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及应用以及人们生活水平的提高,越来越多的人们喜欢从互联网上下载资源。现在人们下载资源都需要经过复杂的步骤,不仅效率低下,而且现在的下载工具充斥着大量的广告,如果操作不当,则有可能使用户的电脑陷入死机或者中毒的状态。本文针对上述问题,设计并实现了一款轻巧易用的小型软件。该软件集搜索,存储展示和下载于一体,不仅能够提供大量可下载的URL,而且能够提高下载速率。本文首先介绍了网络爬虫技术和超文本传输协议HTTP,并在传统网络爬虫的基础上进行了扩展。传统的网络爬虫技术只能抓取静态的URL,而对大量深藏在深网络中的动态的URL没有抓取,从而损失了很多更有价值的URL。这样导致了下载效率较低,而且不能够提供足够的URL以供多源下载。本文通过执行JavaScript脚本来解析出深层网络中的动态的URL。执行JavaScript脚本采用的Rhino解析引擎,但是Rhino解析引擎存在两个弊端:一是Rhino无法模拟浏览器内置对象;二是无法解析这些内置对象动态添加的属性和方法。本文对这两个弊端进行了改进,通过添加对DOM操作的支持,使Rhino可以模拟浏览器内置对象。通过修改在浏览器内置对象中的查找方式,使Rhino可以解析浏览器内置对象动态添加的属性和方法。改进之后的Rhino能够解析出更多的URL。本文的存储和展示模块,主要对可下载的URL进行了分组存储和展示,分组有一定的规则,只有相同的文件类型和文件大小的URL才在一组展示,在展示模块采用定时刷新机制。本文的下载模块采用的是多源下载的技术。首先从存储和展示模块中得到经过分组的URL,用户点击下载区域之后,对用户选择的URL分组进行精确的判断,只有真正指向同一个文件下载源的URL才作为多源下载的源地址。判断方式是使用从这些URL中下载相同位置的片段,计算这些片段的MD5值,MD5值相同的URL地址才作为源地址
其他文献
在全球一体化的进程中,中国经济发展日新月异,已经进入经济转型的关键时期,企业外部的政治、社会和市场环境都存在着很大的不确定性,这就需要创业者能够快速地识别环境变化带
随着我国铁路交通事业的发展,穿越城市的浅埋隧道工程越来越多,钻爆法作为铁路隧道建设的一种主要施工方法,在施工中不可避免地要产生爆破震动效应,不仅影响工程效率,还威胁
本研究基于社会资本与社会支持的理论视角,采用问卷调查和个案访谈的研究方法,以西安市东关南街102位60周岁以上的空巢老人作为研究对象,描述分析了东关南街空巢老人的生活及
本课题运用文献研究法、录像观察法、数理统计法等研究方法,从技术和战术两个维度对使用电子护具和普通护具时的两届世界大赛技战术运用情况进行对比分析,并在此基础上探析跆
随着以用户为核心的新一代Web应用模式——Web2.0如火如荼,Ajax技术获得了广泛应用,比如网易博客、卓越亚马逊、Google等。Ajax采用JavaScript驱动的异步请求/响应机制,而传
如何将优秀运动员培养成既能创造优异的运动成绩,又能拥有良好的综合素质,是理论界和实践领域长期探讨的问题。本文是一篇考察美国大学生运动员培养制度如何具体贯彻和落实的
空间飞行引起植物种子的遗传变异机理是分析空间辐射生物学效应的领域之一。空间辐射的特点是高能量低剂量。以往的研究发现,空间辐射和地面模拟辐射可以引起水稻种子突变体
随着第三代移动通信技术的兴起和发展,数据类业务需求越来越大,数据类套餐和业务形式变得越来越多样化,普通百姓日益习惯和接受甚至使用此类业务。面向家庭的业务从第二代移
间谍题材电影在新世纪之前经历了三个发展阶段:解放战争时期在中国大行其道、十七年时期的繁荣和高潮,文革后、新世纪前的倒退和没落。新世纪之后,间谍题材电影再度兴起和进一
当前,增值业务的快速发展凸现其重要性,而巨大发展潜力空间更将使其成为运营商未来发展的重要支柱。由于现网各类增值业务平台的建设都是为满足本类业务的需求而分别进行的,