基于MapReduce框架的发布式网络爬行器研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:xjw308
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,网络已经普及到社会的每一个角落。人们的日常行为和生活,越来越依赖于网络提供的信息。搜索引擎正是为大众提供便捷的搜索服务,成为提供网络信息资源的最佳工具。而搜索引擎的核心组成之一网络爬行器,能够下载海量的互联网页,并交给搜索引擎进行处理,以便于将信息提供给用户。因此,网络爬行器的研究成为科学界研究的重点。传统的分布式系统框架存在很多的问题,所以MapReduce这一新的分布式框架便应运而生,逐渐开始得到了人们的重视。本论文正是基于MapReduce框架,设计了一款全新的分布式网络爬行器。   针对分布式网络爬行器技术的研究,本文在国内外相关研究的基础上,重点研究了以下两个关键技术与实现:首先,现有的分布式网络爬行器技术,一般在链接调度方面有很大的问题,不能够满足任务分配的一致性。本文研究了基于动态哈希树的链接调度算法,从根本上解决了任务分配的一致性问题,并通过实验证明了任务分配的有效性,证明新的链接调度算法,能够更好的服务于搜索引擎系统。其次,在分布式系统中,需要有海量的被调度的链接信息进行存储操作。而现有分布式网络爬行器系统中,一般采用多级缓存模式,需要设计精巧的数据结构来进行存储操作。本文提出了一种基于改进Trie树和文件池的二级缓存模式,增加了异步归并和批处理工作模式,在节省了内存使用空间的同时,提高了调度信息处理的速度与效率。   最后,本文实现了一个基于MapReduce模型下的分布式网络爬行器系统。理论和实践均证明,应用本文研究的关键技术,能够提高爬行器系统的性能,使其能够满足互联网下网页下载的需要。
其他文献
联合补充问题就是对来自同一个供应商或同一供应地的多种物品,进行联合补充订购,目的是减少年总订购次数,获得数量折扣,节约库存控制费用,降低物品成本的一种库存问题。当一组物品都是由同一个供应商(或供应地)供应,或当一组物品同时采用一种运输工具(汽车、轮船或飞机)运输,这时便面临着这些品种之间如何协调、合理安排订购,使费用极小化的问题。在以往的联合补充问题的模型研究中,研究者大都假设模型中所涉及的需求率
随着互联网技术的进步和人们对信息需求的日益增长,数据库已成为信息存储和共享的重要资源,大量的数据经过采集、整理存储在各类数据库中。不同企业和部门间对数据的共享和集
保证云环境中应用性能的同时尽可能高效的使用资源,对于云服务提供商和云应用所有者都是至关重要的。应用性能监控和资源扩容机制的研究正是为了实现应用性能保障和资源高效
移动流媒体服务的一个重要特点是需要在网络带宽不稳定的状况下,实时传输大量的高清视频数据。为了解决高清视频的流畅播放与带宽波动之间的矛盾,基于HTTP的自适应流技术DASH
自然景物的真实感模拟作为计算机图形学的一个重要方面一直就受到极大的关注。通过对不规则物体模拟,人们获得许多逼真、实时的自然景物模拟方法。近些年来,沙尘暴这一灾害性
DTN是间歇性连接的网络,涵盖了MANET、WSN、星际网络等等,在军事、科研和民用等领域都具有十分广阔的应用前景,是当前国际上备受关注的新兴前沿研究热点之一。尽管DTN面向延
云计算是目前国内外商业和科研机构研究的热点之一,是网格计算、并行计算、分布式计算的发展,是一种新兴的商业计算模式。它采用了成熟的虚拟化技术将数据中心的资源打包为互联
无线Mesh网络是一种新型的分布式多跳网络,它具有自配置自愈合、扩展灵活以及覆盖范围广等特点,是解决“最后一公里”接入的新一代解决方法。作为一种新的网络结构,Mesh网络
随着数据中心规模和数量爆发式增长,如何降低数据中心的运营成本和改善环境污染受到工业界及学术界共同的关注。为了提高服务器的能效利用率,混合负载调度被广泛应用,然而基
当前,气候变化越来越剧烈,气候问题已经成为全球关注的焦点。对大气进行有效的监测,能帮助我们快速、准确地掌握气象变化规律,从而对突发性灾害天气做出有效的预警。激光雷达作为