基于增量式爬虫的搜索引擎系统的设计与实现

来源 :东北大学 | 被引量 : 16次 | 上传用户:haohaohaobaichi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前网络信息丰富全面且多元化,为了从海量数据中获得目标信息,或者搜索关键信息,搜索引擎技术应运而生。在搜索引擎技术中,用来获取和分析数据的单元为网络爬虫,现有的网络爬虫种类很多,功能不一,由于爬虫自身的特点,也常被应用于黑客技术领域。目前最常见也是应用范围最广的网络爬虫就是为搜索引擎提供检索数据支持的网络爬虫,这些网络爬虫为了给用户提供最新且全面的检索数据,每时每刻都在运行。本文通过对搜索引擎数据获取采用的爬虫机制,对网络爬虫进行研究,在分析现有网络爬虫种类和特点以及搜索引擎工作原理的基础上,对网络爬虫的运行机制、运行原理以及特点等进行了分析研究,尤其对增量式爬虫机制进行了研究,并根据增量式爬虫机制,设计和实现了搜索引擎系统。本文首先对网络爬虫及其运行原理进行了研究,然后借助JavaEE设计模式在Linux平台下实现基础搜索引擎系统,将一般式爬虫和增量式爬虫分别搭建在搜索引擎系统中,并对不同的爬虫机制进行数据获取和更新的实验,通过实验数据与可视化实验结果,对一般式爬虫和增量式爬虫进行分析和总结,说明了增量式爬虫在搜索引擎系统应用中的优势,最后基于增量式爬虫设计和实现了功能完善的搜索引擎系统。
其他文献
根据转基因作物59122的外源基因与玉米基因组之间的左侧侧翼序列设计具品系特异性的荧光探针及引物,以实时荧光PCR技术建立59122的品系特定量检测方法,以重组PCR技术成功获得
为热烈庆祝《中华人民共和国无线电管理条例》颁布23周年,9月11日,湖南省益阳市无线电管理处在秀峰公园市民广场开展了集中宣传活动,由此拉开了无线电管理宣传月活动的序幕。活
<正> 中小学实现由应试教育向素质教育转变是上海基础教育跨世纪改革与发展的主题。我们认为推进素质教育是上海面向21世纪发展的必然选择,是满足人民群众接受良好教育的需求
目的:研究番木瓜果肉的糖类成分,以寻找活性化合物。方法:干燥的番木瓜干经95%乙醇提取,石油醚萃取脱脂后的水相采用聚酰胺、MCI、ODS、ODS-AQ柱层析进行纯化,并通过MS和NMR鉴
Carbon Flyer碳纤维无人机是世界上第一个全碳纤维的个人无人机,通过蓝牙控制并搭载摄像头。易于飞行和控制。如同它的名字一样该无人机采用碳纳米管材质打造,净重仅为42.5克,重
<正> 低浓度催产素静脉点滴刺激产程现今已被广泛应用,因宫缩乏力,经低浓度催产素静脉点滴无效而手术者仍为数不少。为此,我们对高浓度催产素静脉点滴、严密观察产程,以两种
工业的蓬勃发展,推动工业企业生产规模不断扩张,而工业生产往往会产生大量的毒性污水。这些工业污水具有难降解特性,排入外部环境后会带来严重的环境污染问题。近年来,伴随着
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
如果把历史上的东北分为二个文化区域的话,南北的分界线就在松辽分水岭。燕国、秦朝、汉朝、明朝都修长城,长城成为南北文化区域的界限,而长城就在松辽分水岭上;辽、金、元时
随着时代的不断进步与经济的繁荣发展,人们对生活质量的要求也越来越高,越来越多的人开始追求绿色环保理念,我国室内设计也秉承着“绿色设计”的宗旨。现如今,我国室内设计从