基于增量式爬虫的搜索引擎系统的设计与实现

来源 :东北大学 | 被引量 : 16次 | 上传用户：haohaohaobaichi

【摘要】

：

目前网络信息丰富全面且多元化,为了从海量数据中获得目标信息,或者搜索关键信息,搜索引擎技术应运而生。在搜索引擎技术中,用来获取和分析数据的单元为网络爬虫,现有的网络

【作者】

：

韩逸

【出处】

：

东北大学

【发表日期】

：

2015年01期

【关键词】

：

网络爬虫搜索引擎数据获取增量式

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前网络信息丰富全面且多元化,为了从海量数据中获得目标信息,或者搜索关键信息,搜索引擎技术应运而生。在搜索引擎技术中,用来获取和分析数据的单元为网络爬虫,现有的网络爬虫种类很多,功能不一,由于爬虫自身的特点,也常被应用于黑客技术领域。目前最常见也是应用范围最广的网络爬虫就是为搜索引擎提供检索数据支持的网络爬虫,这些网络爬虫为了给用户提供最新且全面的检索数据,每时每刻都在运行。本文通过对搜索引擎数据获取采用的爬虫机制,对网络爬虫进行研究,在分析现有网络爬虫种类和特点以及搜索引擎工作原理的基础上,对网络爬虫的运行机制、运行原理以及特点等进行了分析研究,尤其对增量式爬虫机制进行了研究,并根据增量式爬虫机制,设计和实现了搜索引擎系统。本文首先对网络爬虫及其运行原理进行了研究,然后借助JavaEE设计模式在Linux平台下实现基础搜索引擎系统,将一般式爬虫和增量式爬虫分别搭建在搜索引擎系统中,并对不同的爬虫机制进行数据获取和更新的实验,通过实验数据与可视化实验结果,对一般式爬虫和增量式爬虫进行分析和总结,说明了增量式爬虫在搜索引擎系统应用中的优势,最后基于增量式爬虫设计和实现了功能完善的搜索引擎系统。

其他文献

服务中心探索前进——如何发挥学校党组织在实施素质教育中的作用

<正> 中小学实现由应试教育向素质教育转变是上海基础教育跨世纪改革与发展的主题。我们认为推进素质教育是上海面向21世纪发展的必然选择,是满足人民群众接受良好教育的需求

期刊

学校党组织实施素质教育先锋模范作用

Carbon Flyer碳纤维无人机

Carbon Flyer碳纤维无人机是世界上第一个全碳纤维的个人无人机，通过蓝牙控制并搭载摄像头。易于飞行和控制。如同它的名字一样该无人机采用碳纳米管材质打造，净重仅为42．5克，重

期刊

CARBON无人机碳纤维碳纳米管配套应用电池供电离子聚合摄像头

工业污水处理中的环保研究

工业的蓬勃发展,推动工业企业生产规模不断扩张,而工业生产往往会产生大量的毒性污水。这些工业污水具有难降解特性,排入外部环境后会带来严重的环境污染问题。近年来,伴随着

期刊

工业污水处理环保

基于高阶统计特性的调制信号识别

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

学位

调制方式识别特征提取高阶累积量循环谱高阶循环累积量

松辽分水岭:有形的长城和无形的界限

如果把历史上的东北分为二个文化区域的话,南北的分界线就在松辽分水岭。燕国、秦朝、汉朝、明朝都修长城,长城成为南北文化区域的界限,而长城就在松辽分水岭上;辽、金、元时

期刊

松辽分水岭长城界限

浅析基于绿色设计理念的室内设计

随着时代的不断进步与经济的繁荣发展,人们对生活质量的要求也越来越高,越来越多的人开始追求绿色环保理念,我国室内设计也秉承着“绿色设计”的宗旨。现如今,我国室内设计从

期刊

绿色设计理念室内设计环境生态

基于增量式爬虫的搜索引擎系统的设计与实现

与本文相关的学术论文