非关系海量URL存储系统的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hyman_han
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着Web2.0的发展,各种创新的应用和产品不断在互联网中出现使我的工作生活越来越离不开网络应用。而由此产生的大规模甚至超大规模数据存储和运算需求仅仅依靠传统的关系数据库存储手段已经很难满足当前各种互联网应用大规模和时效性的应用要求。为了处理当前网络应用高要求以及硬件资源贫乏之间的矛盾,一种针对特定应用设计特定存储系统的运动在近年来逐渐发展起来,它不以传统的关系数据库作为基本的存储处理手段,而是根据自身应用的实际需要选择以及设计存储系统,以此用有限的资源来实现更高效更快速的存储运算任务。  本文将以高性能网络爬虫的URL存储系统为切入点,研究与存储系统相关的影响爬虫性能的几个关键因素,然后应用非关系数据库的一些理论基础和设计思想针对网络爬虫设计和研究专门的海量URL存储系统,从而满足爬虫对快速进行大规模URL数据的插入、去重、修改、查询的需求。在此基础上最终完成存储系统的实现,满足我们现有爬虫系统的各项要求,并使爬虫系统得到较大的性能改善。  本文主要的成果有以下几个方面:  首先,针对爬虫URL存储的特点内部系统实现的要求,使用键值存储方式,缩减了不必要的结构化查询功能并改为自定义增减存取功能。同时在键值存储的基础上设计了3级结构的物理存储方式,使存储系统能够自动实现水平分区。  其次,采用了URL进行分级哈希的方式得到多级键来生成主键的方式,用于快速查找定位数据路径,以及快速进行数据存储更新。同时能够将相同域名的数据集中到同一个存储单元中,有利于针对爬虫按域名存取方式时高空间局部性特点进行性能提升。  然后,为存储系统设计和实现了基于多级键主键索引方式,采用了2级B+树的方式对URL进行域名聚集和去重分散,使存储系统能够实现自动 URL去重以及在较大数量级数据的情况下仍能保持良好的存取性能以及稳定的内存消耗。  最后,基于以上的研究成果,本文论述了针对爬虫的非关系海量URL存储系统的设计与实现,为日后提高爬虫性能打下了良好的理论研究基础。
其他文献
基于多核处理器的景像织物CAD软件已经成为纺织领域的一个重要研究方向,基于多核处理器的景像织物CAD软件运用粒子群颜色量化算法以及OpenMP多线程并行技术有效的解决了真彩色
随着信息技术的不断发展,数据恢复作为计算机取证的关键技术是打击高科技信息犯罪的有力武器。传统的数据恢复技术面临着如何恢复遭到不可抗力或反取证技术等各种因素破坏的磁
现代战争是信息化与高科技的战争。在未来信息化战场上,战场电磁环境十分复杂,干扰与反干扰斗争非常激烈。大量使用的电子信息装备,不仅数量庞大、体制复杂、种类多样,而且功
随着各个领域对高性能计算的需求不断变化和提升,在并行算法的发展和提升空间有限的条件下,不断增加数据规模成为产生新成果的最有效途径。由多个集群系统构成的分布式异构环
随着互联网的出现及快速发展,IT行业的各个领域发生了巨大而深刻的变化,如今的互联网己不再是一个单一静止的世界,我们到处可以看到动感的三维网页。三维图形技术并不是一个新的
无线传感器网络(Wireless Sensor Network,WSN)在农业中的应用可以有效降低工作量,提高农业管理智能化水平。然而,传统WSN节点位置保持固定,缺乏灵活性和局部执行力。移动机
随着硬件技术和无线网络通信技术的发展,无线传感器网络已经获得了空前的关注,诸如军事入侵、生态环境、智能农业、物流商品监测等领域中已经得到了广泛的应用,并被寄予更广
随着网络技术的飞速发展,基于网络平台的应用系统逐渐进入各行各业中,这些应用系统给用户带来巨大的收益。但是由于网络的开放性,应用系统对自身的安全性提出更高的要求,需要
随着运动控制过程复杂度的显著提高,人们对运动控制技术的要求越来越苛刻,不论是从系统的体积、开发方式方面,还是性能等方面都有了更高的要求。本文在详细分析运动控制发展现状
随着移动通信技术的飞速发展和无线网络的日趋演进,各种现有的以及未来新兴的无线接入技术共同存在,既相互补充又相互竞争,构成了下一代泛在的无线网络。然而不同的接入技术在带