Inar网络爬虫的设计与实现

被引量 : 0次 | 上传用户:icekingfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,如何在上百万的网站中快速有效地获取所需信息常常困扰着人们,搜索引擎(Search Engine)正是为解决用户的查询问题而出现的。通过搜索引擎,用户可以穿梭于放置在不同地点、隶属于不同网络的WWW网页,来获取所需要的各种信息。而在整个搜索引擎系统中,网络爬虫起着重要的作用,它是Internet搜索引擎的数据来源,它决定着整个系统的内容是否丰富、信息是否能够得到及时更新。本文首先从搜索引擎种类和组成出发,对搜索引擎的内部运行机制进行了初步的了解,其次对现在一般的网络爬虫的运行过程给予整体的介绍,以及网络爬虫的搜索策略和所面临的主要技术问题进行了简要的分析,然后通过了三个具体的例子对网络爬虫的内部结构进一步的分析,最后对于网络爬虫Inar(Information Navigation And Retrieval)体系结构设计与实现作了详细的分析。本文的研究内容主要包括以下几个方面:(1)通过对一般网络爬虫的分析研究,提出了Inar网络爬虫的体系结构,并结合主要的数据结构对爬虫的内部核心结构进行了深入的阐述。(2)在详细分析了Inar核心结构:URL调度, DNS解析, Connecting,异步I/O, HTML分析,URL过滤几个主要模块以后,分别给出了在linux平台下C/C++技术实现Inar的详细过程。(3)对于Inar的更新策略予以了设计与分析,提出了更新爬虫与发现爬虫的爬虫系统结构,使爬虫的功能更加独立,有效,提高了网络爬虫更新的效率。(4)对实验数据进行分析,通过试验数据分别与Google, The Internet Archieve爬虫进行比较,总结优缺点。(5)对运行结果和下一步本课题的实现内容做了分析和简单的展望。
其他文献
氧化亚铜作为一种重要的金属氧化物半导体材料,其禁带宽度为2.17eV,可以很好地吸收可见光,使得它在光电化学分解水领域具有极其重要的研究价值。由于氧化亚铜制备氢气能力远
目的:探讨激光光凝治疗糖尿病视网膜病变患者的效果。方法:收集本院100 例2017 年9 月~2018年1 月糖尿病视网膜病变患者。按照治疗分组,对照组采取药物治疗,观察组则采取药物
混合算法可以最大限度克服高、低频方法本身的局限性,在复杂结构的目标电磁散射研究中具有重要的应用价值。论文着重研究电大尺寸目标电磁散射的矩量法和物理光学混合算法及应
一 引言  在医学成像、图像处理所涉及的众多领域,噪声是引起图像质量降低的一个重要原因。为了提高图像质量及对图像进行压缩、分形等更高层次的处理,对图像进行降噪是必
自迈曼(Maiman)于1960年制造出第一台红宝石激光器以来,激光技术发展非常迅速。作为一种光波,激光与普通光波并没有本质的区别,但就发光机理而言,两者截然不同,激光的独特发
本文设计了一个应用于水分测量仪中的电子天平,选用电阻应变式称重传感器,采用电压比例测量方法,结合高精度模数转换器ADS1240E,将称重信号转化为数字量后送给单片机进行处理
随着信息化作战力量和作战手段的运用与发展,全时空作战已成为现代战争的基本形式。后勤是战争的支柱,而战争的时间界限及战场前后方界限已趋于模糊,后勤面临的威胁已表现为全程
《红楼梦》中对茶有这样的描述:“要说到那茶之美,真正也是不少的,比如王孙草,甘露兄,不夜候,余香氏,还有便是那忘忧君了。”可见我们生活中对饮茶之美是多么的崇尚。但是,
作为一种新型的光源,半导体激光器(LD,Laser Diode)因具有转换效率高、体积小、重量轻、可靠性高、能直接调制及与其它半导体器件集成的能力强等特点,已经越来越广泛地应用于通
在诸多的多相光催化材料之中,二氧化钛无疑是应用最广泛,相关研究也最多的半导体材料之一。因为它具有价格低廉,绿色环保等很多优点。但是由于二氧化钛属于宽带隙半导体,只有