非关系海量URL存储系统的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：hyman_han

【摘要】

：

近年来随着Web2.0的发展,各种创新的应用和产品不断在互联网中出现使我的工作生活越来越离不开网络应用。而由此产生的大规模甚至超大规模数据存储和运算需求仅仅依靠传统的

【作者】

：

叶建威

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2011年期

【关键词】

：

网络爬虫 URL存储系统非关系数据库空间局部性多级键主键索引

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来随着Web2.0的发展,各种创新的应用和产品不断在互联网中出现使我的工作生活越来越离不开网络应用。而由此产生的大规模甚至超大规模数据存储和运算需求仅仅依靠传统的关系数据库存储手段已经很难满足当前各种互联网应用大规模和时效性的应用要求。为了处理当前网络应用高要求以及硬件资源贫乏之间的矛盾,一种针对特定应用设计特定存储系统的运动在近年来逐渐发展起来,它不以传统的关系数据库作为基本的存储处理手段,而是根据自身应用的实际需要选择以及设计存储系统,以此用有限的资源来实现更高效更快速的存储运算任务。　　本文将以高性能网络爬虫的URL存储系统为切入点,研究与存储系统相关的影响爬虫性能的几个关键因素,然后应用非关系数据库的一些理论基础和设计思想针对网络爬虫设计和研究专门的海量URL存储系统,从而满足爬虫对快速进行大规模URL数据的插入、去重、修改、查询的需求。在此基础上最终完成存储系统的实现,满足我们现有爬虫系统的各项要求,并使爬虫系统得到较大的性能改善。　　本文主要的成果有以下几个方面:　　首先,针对爬虫URL存储的特点内部系统实现的要求,使用键值存储方式,缩减了不必要的结构化查询功能并改为自定义增减存取功能。同时在键值存储的基础上设计了3级结构的物理存储方式,使存储系统能够自动实现水平分区。　　其次,采用了URL进行分级哈希的方式得到多级键来生成主键的方式,用于快速查找定位数据路径,以及快速进行数据存储更新。同时能够将相同域名的数据集中到同一个存储单元中,有利于针对爬虫按域名存取方式时高空间局部性特点进行性能提升。　　然后,为存储系统设计和实现了基于多级键主键索引方式,采用了2级B+树的方式对URL进行域名聚集和去重分散,使存储系统能够实现自动 URL去重以及在较大数量级数据的情况下仍能保持良好的存取性能以及稳定的内存消耗。　　最后,基于以上的研究成果,本文论述了针对爬虫的非关系海量URL存储系统的设计与实现,为日后提高爬虫性能打下了良好的理论研究基础。

其他文献

基于多核处理器的景像织物CAD设计

基于多核处理器的景像织物CAD软件已经成为纺织领域的一个重要研究方向，基于多核处理器的景像织物CAD软件运用粒子群颜色量化算法以及OpenMP多线程并行技术有效的解决了真彩色

学位

景像织物并行粒子群颜色量化多核处理器CAD软件

归档文件雕复方法的研究

随着信息技术的不断发展，数据恢复作为计算机取证的关键技术是打击高科技信息犯罪的有力武器。传统的数据恢复技术面临着如何恢复遭到不可抗力或反取证技术等各种因素破坏的磁

学位

归档文件雕复固实压缩数据恢复计算机取证

基于混沌扩频通信与RAKE接收机的微弱信号检测技术

现代战争是信息化与高科技的战争。在未来信息化战场上,战场电磁环境十分复杂,干扰与反干扰斗争非常激烈。大量使用的电子信息装备,不仅数量庞大、体制复杂、种类多样,而且功

学位

混沌序列扩频通信RAKE接收机DCSK调制信号检测

广域网多级集群环境下的MPI扩展研究

随着各个领域对高性能计算的需求不断变化和提升,在并行算法的发展和提升空间有限的条件下,不断增加数据规模成为产生新成果的最有效途径。由多个集群系统构成的分布式异构环

学位

广域网多级集群消息传递接口MPICH2

基于Web的交互式三维浏览器研究与实现

随着互联网的出现及快速发展，IT行业的各个领域发生了巨大而深刻的变化，如今的互联网己不再是一个单一静止的世界，我们到处可以看到动感的三维网页。三维图形技术并不是一个新的

学位

网络三维图形三维浏览器三维交互三维渲染引擎OSG

作为WSN移动节点的履带机器人路径跟踪控制研究

无线传感器网络(Wireless Sensor Network,WSN)在农业中的应用可以有效降低工作量,提高农业管理智能化水平。然而,传统WSN节点位置保持固定,缺乏灵活性和局部执行力。移动机

学位

WSN移动节点UKF滑动参数计算FSMC路径跟踪

移动无线传感器网络MAC协议及跨层优化研究

随着硬件技术和无线网络通信技术的发展,无线传感器网络已经获得了空前的关注,诸如军事入侵、生态环境、智能农业、物流商品监测等领域中已经得到了广泛的应用,并被寄予更广

学位

移动无线传感器网络MAC协议路由协议跨层优化QoS性能仿真分析

跨域单点登录在督考平台中的研究与应用

随着网络技术的飞速发展,基于网络平台的应用系统逐渐进入各行各业中,这些应用系统给用户带来巨大的收益。但是由于网络的开放性,应用系统对自身的安全性提出更高的要求,需要

学位

消息传输联合认证跨域单点登录

高性能DSP可编程逻辑控制平台的研究

随着运动控制过程复杂度的显著提高，人们对运动控制技术的要求越来越苛刻，不论是从系统的体积、开发方式方面，还是性能等方面都有了更高的要求。本文在详细分析运动控制发展现状

学位

运动控制内核引擎任务调度电梯门机可编程逻辑控制器

基于重复博奕的异构无线网络选择算法研究

随着移动通信技术的飞速发展和无线网络的日趋演进，各种现有的以及未来新兴的无线接入技术共同存在，既相互补充又相互竞争，构成了下一代泛在的无线网络。然而不同的接入技术在带

学位

异构无线网络垂直切换重复博弈论消费品市场交易模型无缝漫游网络选择

非关系海量URL存储系统的研究

与本文相关的学术论文