论文部分内容阅读
目前网络信息丰富全面且多元化,为了从海量数据中获得目标信息,或者搜索关键信息,搜索引擎技术应运而生。在搜索引擎技术中,用来获取和分析数据的单元为网络爬虫,现有的网络爬虫种类很多,功能不一,由于爬虫自身的特点,也常被应用于黑客技术领域。目前最常见也是应用范围最广的网络爬虫就是为搜索引擎提供检索数据支持的网络爬虫,这些网络爬虫为了给用户提供最新且全面的检索数据,每时每刻都在运行。本文通过对搜索引擎数据获取采用的爬虫机制,对网络爬虫进行研究,在分析现有网络爬虫种类和特点以及搜索引擎工作原理的基础上,对网络爬虫的运行机制、运行原理以及特点等进行了分析研究,尤其对增量式爬虫机制进行了研究,并根据增量式爬虫机制,设计和实现了搜索引擎系统。本文首先对网络爬虫及其运行原理进行了研究,然后借助JavaEE设计模式在Linux平台下实现基础搜索引擎系统,将一般式爬虫和增量式爬虫分别搭建在搜索引擎系统中,并对不同的爬虫机制进行数据获取和更新的实验,通过实验数据与可视化实验结果,对一般式爬虫和增量式爬虫进行分析和总结,说明了增量式爬虫在搜索引擎系统应用中的优势,最后基于增量式爬虫设计和实现了功能完善的搜索引擎系统。