搜索引擎中Crawler的设计、实现与扩展优化

被引量 : 0次 | 上传用户:xiaolaohu_521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎,是指一种在Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。本文首先对搜索引擎的关键技术进行了全面分析,包括:索引器原理、搜索器原理、爬取器原理、网页质量评估算法、词法分析理论、中文分词技术、文件倒排技术、布尔查询理论。然后,在搜索引擎关键技术的基础上,基于一个轻量级的架构设计了搜索引擎的三个主要模块:网页爬虫、索引器与搜索器。并重点实现了网页爬虫模块。网页爬虫模块中:在实现其核心功能的基础上,提出了以下几种优化方案:1、增量式模型及其实现:增量式搜集只对部分页面进行更新就可以刷新页面集,可以大幅度减少批量更新次数,提高页面集的新鲜度。2、分布式扩展与实现:把一个搜集节点扩展为多个搜集节点,节点之间相互通信,并增加了控制节点来协调各节点的工作。3、网页权值计算:用于评估网页的重要性,为网页排序提供依据。采用了Google的PageRank算法。4、对磁盘存储方式进行扩展:利用面向对象语言的继承与派生机制,对数据库存储方式和容错文件格式提供了支持。5、提出了一种新的网页爬取策略:在第一次搜集网页时根据计时策略给每个URL赋一个权值。在下一次爬取网页的时候根据权值的大小去确定访问URL的先后次序,避免带宽资源过多浪费在低性能的服务器上。索引模块中:首先,讨论了中文分词的设计思想,选择了分词的算法。然后,提出了正向索引文件的建立策略。最后,给出了倒排索引的分级索引方案。搜索模块中:首先,给出了搜索器的布尔查询方案。然后,讨论了怎样根据倒排索引实施布尔查询。
其他文献
弘扬赶考精神,从"中国共产党人的初心和使命"、"以人民为中心"、"新时代发展"、"世界视角"四个维度探究其本质和内涵,并结合河北发展实际,研究其现实价值。
教育是文化的生命机制,民族文化传承需要教师的文化自觉,这是由教师的文化使命所决定的。在民族文化传承的视野下,教师的文化自觉要求教师要正确地认识本民族的文化,正确地认
当下,“互联网+”领域中的劳动争议案件层出不穷,特别是在劳动关系认定上争议颇多。这部分源于“互联网+”带来的用工模式和业务模式的多样化。$$笔者所在的江苏省扬州市,某知名
报纸
目的:观察评价中药更年安神汤加减治疗女性更年期不寐的临床疗效方法:本研究将符合纳入标准的60例女性更年期不寐患者,随机分为治疗组(更年安神汤加减治疗)和对照组(舒乐安定治
近年来,生物认证技术以其独特的方便性和经济性等优势受到世人瞩目,并日益成为人们日常生活和工作中的安全验证方式。声纹识别(又称说话人识别)是利用人体生物特征进行身份认
研究背景腰椎椎体间融合术是目前治疗椎间盘源性下腰痛、腰椎滑脱症、腰椎不稳症等原因引起的下腰痛效果较为满意的一种腰椎融合手术方式,其主要分为前路椎体间融合术(ALIF)
本文基于FDI的环境效应这一基本问题,以大气污染为切入点构造污染强度指标,并将其进一步分解为产业结构、总体技术进步与地区相对技术进步指标;以此为基础对外资进入与政府监
射频识别(RFID,Radio Frequency Identification)是一种利用无线射频方式在阅读器和标签之间进行非接触双向数据传输,以达到目标识别和数据交换目的的新技术。因为具有非接触
毫米波无源成像相对于光学、红外和微波成像,具有其独特的技术优势。它能够穿透云、雾、战场硝烟等,具备全天候的工作能力,成像对比度更高,更利于目标识别与探测;它对非金属
【正】 一、企业战略的转变企业战略理论的潮流正在转变。迄今为止的企业战略都是以"经验效果"为中心展开的。市场占有率高的企业往往比市场占有率低的企业积累有更多的经验,