网络信息资源检索工具中的搜索引擎基本工作原理

来源 :电子世界 | 被引量 : 0次 | 上传用户:bleachdou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】本文通过对网络信息资源检索工具中的独立搜索引擎的体系结构和工作过程等进行阐述,旨在说明独立搜索引擎的基本工作原理。
  【关键词】网络信息资源;搜索引擎;体系结构;工作过程;工作原理
  
  随着国内外近年来电子图书馆、数字图书馆、虚拟图书馆的兴起与发展,图书馆的工作对象由文献资源扩展为信息资源。以计算机技术、网络技术、微电子技术为核心的现代化技术将从根本上改变图书馆的工作模式、工作方法甚至体制形态。新的研究课题不断涌现,其中包括网上信息资源的虚拟链接和应用、利用计算机进行各类信息(包括多媒体信息、流媒体信息等)的存储和检索。
  1.网络信息资源
  网络信息资源是将文字、图像、声音、动画等多种形式的信息,以数字化形式存储,并借助计算机与网络通信设备发布、收集、组织、存储、传递、检索和利用的信息资源。
  2.网络信息资源的检索工具
  网络信息资源检索工具有多种,按照其检索机制可分为主题指南(目录型检索工具)、图书馆的网络导航(学科导航)、搜索引擎等。从功能上来看,主题指南和图书馆的网络导航类似图书中的目次,而搜索引擎则更像索引。搜索引擎使用自动索引软件来发现、收集并标引网页,建立索引数据库,以Web形式提供检索界面。当用户输入某个关键词的时候,所有在页面内容中包含该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低依次排列。搜索引擎强调的是检索功能,而非主题指南那样的导引、浏览。
  3.搜索引擎基本工作原理
  3.1 搜索引擎的概念
  搜索引擎是指自动从互联网搜集信息,经过一定整理之后,提供给用户进行查询的系统。它是为满足用户对网络信息搜索需求应运而生的网络工具,既是互联网信息查询的导航器,也是沟通用户与网络信息的重要桥梁。搜索引擎是在检索被搜索到的网页的数据库,而不是检索互联网本身。[1]
  3.2 独立搜索引擎是一个双层的客户机/服务器(Client/Server—C/S)体系结构
  当用户访问搜索引擎时,用户端为客户机,向搜索引擎发出检索请求,搜索引擎为服务器,检索自己的索引数据库并将检索结果以应答形式提交给用户。当搜索引擎采集数据时,搜索引擎为客户机,向WWW站点等实际资源系统提出页面搜索请求,各类实际资源系统为服务器,将有关数据(例如WWW页面或文档)作为应答提交给搜索引擎。
  3.3 搜索引擎的目的
  搜索引擎的目的只有一个:寻找相关性最高的网页。
  3.4 搜索引擎有至少三个因素值得重视:数据库,用户搜索,搜索结果排序
  值得一提的是数据库,搜索引擎的数据库资源由用户提交的登录信息组成,他们还主动地使用其“Web crawlers”“spiders”或“robots”程序搜索因特网并将搜索到的网页信息归入其索引数据库中。
  3.5 搜索引擎的工作包括如下三个过程
  (1)在互联中发现、搜集网页信息
  搜索引擎首先负责数据采集,即按照一定的方式和要求对网络上的WWW站点进行搜集,并把所获得的信息保存下来以备建立索引库和用户检索。但是收集网页只是搜索引擎的一部分工作,他们的其他服务器要做的还有进行计算/分配/储存用户习惯等等。
  (2)对信息进行提取和组织建立索引库
  首先是数据分析与标引,搜索引擎对已经收集到的资料给与按照网页中的字符特性予以分类,建立搜索原则,举例来说,对于"软件"这个词,它必须建立一个索引,当用户查找的时候,他知道到这里来调取资料。当然,对于网页语言,该字符的处理(大小写/中文的断字方式等等)等方面,各个搜索引擎都有自己的存档归类方式,这些方式往往影响着未来搜索结果。
  接下来是数据组织,搜索引擎负责形成规范的索引数据库或便于浏览的层次型分类目录结构,也就是计算网页等级,这个原则特别是在Google非常重要,一个接受很多链接的网页,搜索引擎必然在所有的网页当中将这些连接多的网页提升上来。
  (3)在索引数据库中搜索排序
  由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
  搜索引擎负责帮助用户用一定的方式检索索引数据库,获取符合用户需要的WWW信息。搜索引擎还负责提取用户相关信息,利用这些信息来提高检索服务的质量,信息挖掘在个性化服务中起到关键作用。用户检索的过程是对前两个过程的检验,检验该搜索引擎能否给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。
  3.6 主要搜索引擎
  主要搜索引擎有Goole、百度、Yahoo和Bing。一般来说,如果是搜索英文信息使用Goole会更有效,搜索中文信息则倾向于使用百度。即使在中文信息领域,如果单就搜索的准确性而言,目前Goole仍占据着明显优势,应成为首选。目前百度以近70%的市场占有率,占据中文搜索引擎的领先地位,在全球的市场份额则落后于谷歌、雅虎和微软必应排在第4位。
  
  参考文献
  [1]邹广严,王红兵.信息检索与利用[M].北京:科学技术出版社,2011.
  
  作者简介:牟雪艳(1972—),女,大学本科,毕业于北京大学信息管理系图书馆学专业,北大文学学士,山东省烟台栖霞市图书馆馆员。
  
其他文献
目的:通过研究连作当归的生理生化效应,探讨当归的连作障碍机制。方法:测定分析当归的生长指标、叶片光合参数、保护酶活性等生理生化指标和产量、品质的变化。结果:连作导致
在传统的职业学校教育中,理论与实践教学相对独立,导致培养出的人才很难适应企业和社会的需求。职业学校技能大赛的开展促进了职业院校教学观念的转变、课程内容的改革、教学模
观察中长链丙泊酚复合依托咪酯应用在宫腔镜手术的麻醉效果。两种药物联合应用镇痛效果更佳且不良反应少,值得应用于宫腔镜手术。
目的: 中药熏洗法在预防和治疗痔病术后并发症疗效显著, 旨在分析探讨清热活血法在痔病术后中的用药规律. 方法: 检索中国知网(China National Knowledge Infrastructure, CNKI)
习题教学是高中数学课堂当中的一项重点内容,我们应当充分结合学生的学习状况以及教材有秩序地展开教学计划.习题练习可以在一定程度上提高学生解决问题的能力,并通过练习逐
目的 探讨结直肠癌患者KRAS、NRAS和BRAF基因突变特点及状况。方法 收集哈尔滨医科大学附属第一医院144例结直肠癌患者的手术石蜡标本,采用突变阻滞扩增系统(amplification re
为总结跨线转体桥设计技术要点及确定施工关键控制参数,以新宁高速公路上跨京沪铁路(64+64)m预应力混凝土T构桥的平面整幅转体施工为背景,从桥型构思及总体布置出发,介绍了转
中铁工程设计咨询集团有限公司(简称“中铁设计”)始建于1953年2月,前身是铁道部专业设计院,2004年7月改制重组,注册为现名。是集工程规划、勘察、设计、咨询、总承包、监理
【摘 要】随着全媒体时代的到来和改革开放的不断深入,国人传统的价值观、教育观正经受着空前的考验和洗礼。在师道尊严弱化、学校教育失去权威的现代社会,如何当好班主任,特别是如何当好初中生的心灵导师,是摆在现代班主任面前的重大课题。笔者曾多次尝试论证解决之道,终因学识浅薄、文字拙劣难以遂愿,在此抛砖引玉以期获取真经。  【关键词】初中 班主任 心灵导师  在新课改背景下,班主任不仅是传授学生知识的
随着大规模集成电路的广泛应用,实用性和创新性欠缺的传统数字电路教学模式,已不再适应现代应用型人才的培养。本文提出了将VHDL描述语言融入数字电路教学中的改革方案,即通过具