搜索引擎中网络爬虫技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:treesoft_ng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的迅速发展,Web信息呈指数增长,搜索引擎已经成为人们进行信息获取必不可少的工具。目前大多数的搜索引擎提供的服务还不能令用户满意,如何利用有限的系统资源搜集尽可能多、尽可能重要的网页已经成为研究的热点。本文设计并实现了一个网络爬虫系统,并对其中的核心算法做了深入探讨。论文分析了搜索引擎的工作原理和体系结构;研究了网络爬虫的搜集策略,提出了一种改进的基于网页深度和带权重的反向链接相结合的搜集算法,并对该算法做了可行性验证;设计并实现了网络爬虫的关键算法,包括多线程的网页抓取,URL的去重,网页的调度等。此外,针对中文搜索引擎的特点,采用汉字编码的转换,实现了不同编码网页的统一存储;采用DNS解析缓存机制,使得信息搜集的速度明显加快;采用增量抓取机制,避免了因重复搜集未变化的网页带来的资源和时间耗费。实验结果表明,该网络爬虫的设计较好的满足了搜索引擎对海量数据处理的要求。
其他文献
信息技术时代的大背景下,高中英语课堂教学模式紧跟时代的脚步出现了翻天覆地的变化。其中微课以结构精简、针对性强等特点在众多优异的教学方式中脱颖而出,逐渐得到大量教师
目的观察马来酸左旋氨氯地平与缬沙坦氨氯地平对原发性高血压治疗效果和血压变异性的影响。方法选取本院高血压患者160例作为研究对象,随机分为两组,每组80例,观察组顿服缬沙
面向企业云的软件智能公司Dynatrace宣布,该公司在2019年Gartner应用性能监测魔力象限中,执行力和前瞻性均排名第一。同时,Dynatrace也是Gartner魔力象限报告中仅有的一家连
目的评价对老年高血压实施联合用药的治疗效果。方法选择90例原发性老年高血压患者,以随机数表将其分为对照组45例和观察组45例,对照组应用苯磺酸左旋氨氯地平治疗,观察组应
2001年6月,教育部颁布《基础教育课程改革纲要(试行)》明确提出:'从小学至高中设置综合实践活动并作为必修课程.'对综合实践活动课程的定义为:在教师的引导下,学生自
坂口安吾作为'无赖派'的旗手,用其讽刺的写作手法对战后日本混乱的世间百态,进行大胆批评,是日本战后文学的代表作家之一。因其文学评论《日本文化私观》(1942年3月)
目的探讨白细胞计数(WBC)、降钙素原(PCT)、血清淀粉样蛋白(SAA)、超敏C反应蛋白(hs-CRP)和前白蛋白(PA)这五项炎症性指标在慢性阻塞性肺疾病急性加重期(AECOPD)中的变化及意
国有企业在我国经济总量中占据举足轻重的地位。中央政府和地方人民政府分级履行国有企业出资人职责,享有相应的出资人权益。相当一部分国有企业已经成为上市公司,地方国有控
内部控制制度审计是检查内部控制体系完善性和执行有效性的关键环节。本文以内部审计的独特视角,描述建设期核电项目开展内部控制制度审计的必要性,同时以三门核电有限公司(以