Inar网络爬虫的设计与实现

被引量 : 0次 | 上传用户：icekingfly

【摘要】

：

随着internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,如何在上百万的网站中快速有效地获取所需信息常常困扰着人们,搜索引擎(Search Engine)正是为解决用户的查询

【作者】

：

林乐彬

【发表日期】

：

2006年期

【关键词】

：

Web 网络爬虫异步I/O 单线程

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,如何在上百万的网站中快速有效地获取所需信息常常困扰着人们,搜索引擎(Search Engine)正是为解决用户的查询问题而出现的。通过搜索引擎,用户可以穿梭于放置在不同地点、隶属于不同网络的WWW网页,来获取所需要的各种信息。而在整个搜索引擎系统中,网络爬虫起着重要的作用,它是Internet搜索引擎的数据来源,它决定着整个系统的内容是否丰富、信息是否能够得到及时更新。本文首先从搜索引擎种类和组成出发,对搜索引擎的内部运行机制进行了初步的了解,其次对现在一般的网络爬虫的运行过程给予整体的介绍,以及网络爬虫的搜索策略和所面临的主要技术问题进行了简要的分析,然后通过了三个具体的例子对网络爬虫的内部结构进一步的分析,最后对于网络爬虫Inar(Information Navigation And Retrieval)体系结构设计与实现作了详细的分析。本文的研究内容主要包括以下几个方面:(1)通过对一般网络爬虫的分析研究,提出了Inar网络爬虫的体系结构,并结合主要的数据结构对爬虫的内部核心结构进行了深入的阐述。(2)在详细分析了Inar核心结构:URL调度, DNS解析, Connecting,异步I/O, HTML分析,URL过滤几个主要模块以后,分别给出了在linux平台下C/C++技术实现Inar的详细过程。(3)对于Inar的更新策略予以了设计与分析,提出了更新爬虫与发现爬虫的爬虫系统结构,使爬虫的功能更加独立,有效,提高了网络爬虫更新的效率。(4)对实验数据进行分析,通过试验数据分别与Google, The Internet Archieve爬虫进行比较,总结优缺点。(5)对运行结果和下一步本课题的实现内容做了分析和简单的展望。

其他文献

氧化亚铜与氧化锌复合结构的光电化学分解水研究

氧化亚铜作为一种重要的金属氧化物半导体材料,其禁带宽度为2.17eV,可以很好地吸收可见光,使得它在光电化学分解水领域具有极其重要的研究价值。由于氧化亚铜制备氢气能力远

学位

氧化亚铜氧化锌复合结构光电化学分解水制氧

激光光凝治疗糖尿病视网膜病变患者的效果分析

目的:探讨激光光凝治疗糖尿病视网膜病变患者的效果。方法:收集本院100 例2017 年9 月~2018年1 月糖尿病视网膜病变患者。按照治疗分组,对照组采取药物治疗,观察组则采取药物

期刊

激光光凝糖尿病视网膜病变患者效果

矩量法和物理光学法的混合算法及应用研究

混合算法可以最大限度克服高、低频方法本身的局限性，在复杂结构的目标电磁散射研究中具有重要的应用价值。论文着重研究电大尺寸目标电磁散射的矩量法和物理光学混合算法及应

学位

混合算法矩量法物理光学电流基区域划分

基于相关模型的平稳小波维纳滤波器图像去噪算法

一　引言　在医学成像、图像处理所涉及的众多领域，噪声是引起图像质量降低的一个重要原因。为了提高图像质量及对图像进行压缩、分形等更高层次的处理，对图像进行降噪是必

学位

相关模型平稳小波变换维纳滤波图像去噪峰值信噪比

激光光斑中心位置计算方法的研究

自迈曼(Maiman)于1960年制造出第一台红宝石激光器以来,激光技术发展非常迅速。作为一种光波,激光与普通光波并没有本质的区别,但就发光机理而言,两者截然不同,激光的独特发

学位

激光光斑Zernike多项式初级像差图像处理

基于电阻应变式称重传感器的电子天平的研制

本文设计了一个应用于水分测量仪中的电子天平,选用电阻应变式称重传感器,采用电压比例测量方法,结合高精度模数转换器ADS1240E,将称重信号转化为数字量后送给单片机进行处理

学位

电子天平电阻应变式称重传感器比例测量光电隔离温度补偿数字滤波算法分段线性插值抗干扰

现代战争后勤汽车分队防卫研究

随着信息化作战力量和作战手段的运用与发展，全时空作战已成为现代战争的基本形式。后勤是战争的支柱，而战争的时间界限及战场前后方界限已趋于模糊，后勤面临的威胁已表现为全程

学位

现代战争后勤汽车分队防卫一体化

茶酒美容法

《红楼梦》中对茶有这样的描述:“要说到那茶之美,真正也是不少的,比如王孙草,甘露兄,不夜候,余香氏,还有便是那忘忧君了。”可见我们生活中对饮茶之美是多么的崇尚。但是,

期刊

皮肤粗糙纱布袋

半导体激光器组件的传热特性与热电控制技术研究

作为一种新型的光源，半导体激光器(LD，Laser Diode)因具有转换效率高、体积小、重量轻、可靠性高、能直接调制及与其它半导体器件集成的能力强等特点，已经越来越广泛地应用于通

学位

半导体激光器组件热电制冷器传热特性热控制技术

增强可见光吸收和光催化效率的黑色二氧化钛的机理和性质的探究

在诸多的多相光催化材料之中,二氧化钛无疑是应用最广泛,相关研究也最多的半导体材料之一。因为它具有价格低廉,绿色环保等很多优点。但是由于二氧化钛属于宽带隙半导体,只有

学位

蓝黑色二氧化钛氧缺陷可见光光吸收光催化

Inar网络爬虫的设计与实现

与本文相关的学术论文