独立搜索引擎的基本工作原理浅析

来源 :中国科技财富 | 被引量 : 0次 | 上传用户:liuyong19840815
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:独立搜索引擎的检索技术是在联机数据库检索技术的基础上发展起来的,它们实质上都是对信息集合与需求集合的匹配。本文着重讨论了独立搜索引擎的工作原理及其所包含的技术方法。
  关键词:独立搜索引擎;Robot;IndexerSearcher;工作原理分析
  
  WWW网上浩如烟海的信息资源,吸引着大量的用户。但,网民对特定信息的需求驱使人们想方设法摆脱信息查询大海捞针般的困境。1994年4月Web craWler搜索引擎在网上正式发布并开始服务。1996年后,搜索引擎进入了“容量建设期”。当前,搜索引擎正经历着从“数量累积阶段”到“质量精炼阶段”的变革。就现阶段来说,WWW网上的信息检索工具主要以独立搜索引擎为主(就是通常意义上我们说的搜索引擎),是相对于集合搜索引擎(或元搜索引擎)而称。独立搜索引擎是元搜索引擎与信息检索代理(agent)的技术基础,故对网络信息检索系统的研究是基于对独立搜索引擎的研究。
  独立搜索引擎的检索技术是在联机数据库检索技术的基础上发展起来的,它们实质上都是对信息集合与需求集合的匹配,但独立搜索引擎面临着比联机数据库检索系统远为复杂的环境。网络信息的数量之巨、增长之快,异构性、分布性和动态性的趋势以及来源广泛,又缺乏质量控制,甚至有专门针对独立搜索引擎的陷阱行为等特点,决定了独立搜索引擎除了继承联机数据库检索的技术方法外,还必须设法解决这些复杂环境带来的问题。独立搜索引擎其工作原理是如何的?它包含有那些技术方法?(这里讨论的是狭义的搜索引擎)
  
  一、独立搜索引擎的概念以及其基本结构机理分析
  
  独立搜索引擎是指利用网络自动搜索技术软件(Robot)对Internet(主要是Web)网络资源进行搜集,并整理、组织从而形成管理与存储这些信息的索引数据库。基于该索引数据库,以超文本形式在Internet上面向网络用户提供网上信息资源检索和导航服务的一类信息服务系统。其目的只有一个:寻找相关性最高的网页。
  独立搜索引擎作为处于用户层和WWW网络层之间的一个中间层次,一般地,我们可以把独立搜索引擎看成是一个双层的客户机/服务器与从客户机过渡到服务器的数据提取和组织模块的结构体系(Client/Server—Indexer—C/S)。其基本结构一般包括有数据采集、数据提取与组织、数据检索三个功能模块。
  (如图所示)


  1.数据采集模块,是指独立搜索引擎为客户机,通过一类自动搜索软件(Robot)按照一定的方式和要求向WWW站点等实际资源系统提出页面搜索请求。各类WWW站点等实际资源系统为服务器,将有关数据(如WWW页面或文档)作为应答提交给独立搜索引擎,形成一个临时网页数据库。
  2.数据提取和组织模块,在这里独立搜索引擎通过一个数据分析与标引软件(Indexer)对临时网页数据库的有关数据进行分析,提取有检索或查询价值的内容,如网页关键词、网页的分类类别等,并对关键词进行权值计算,建成一个规范的索引数据库或便于浏览的层次型分类目录结构。使独立搜索引擎从客户机过渡到服务器。
  3.数据检索模块,是指独立搜索引擎为服务器,根据网络用户在用户接口上提出的检索请求,通过一个数据库检索软件(Searcher)根據用户接口接受的用户请求,按照匹配的检索策略与相应的检索技术,并使用一个信息挖掘智能软件(UP Mining)提取用户相关信息为参照,反复检索自己的索引数据库获取符合用户需要的WWW信息。在用户接口上将这些WWW信息有序地提供给网络用户。
  
  二、独立搜索引擎核心技术机理分析
  
  从独立搜索引擎的基本结构机理分析结果看,其网上信息资源检索功能的实现主要涉及三个核心技术,Robot、Indexer与Searcher。
  
  1.RobotiC/工作原理分析
  Robot的主要功能是自动从Internet上的各Web站点抓取Web文档并从中提取一些信息来描述该文档。为独立搜索引擎站点的数据库服务器追加和更新数据提供原始数据。运行Robot时,Robot首先将精选一批高质量的URL(这些URL可以从以往访问过的或一些热门的Web站点上提取),并遵循HTTP协议将这些URL所代表的网页抓取回来,再从抓取到的这些网页中抽取出所有新的、示访问过的超级链接,并按照一定的算法选择出另一批URL,继续进行网页信息的收集:如此循环不止,直到满足需要,就可以实现海量网页的自动搜集。Robot的性能很大程度上决定了独立搜索引擎的“容量建设”。
  
  2.Indexer的工作原理分析
  Indexer的主要功能是理解Robot搜索的信息,从中抽出索引项,用于表示文档以及生成文档库的索引表。运行Indexer时,Indexer在HTML文件抽取索引项,使用索引算法赋予其一个等级值,并以此为依据建立索引数据库。Indexer的质量主要影响独立搜索引擎的有效性与查准率。
  
  3.Searche的工作原理分析
  Searcher主要是根据用户的检索请求,启动预先设置的各种信息检索模型在索引数据库中快速检出文档,进行文档与检索请求的相关度评价,将检索到的文档排序输出,并实现某种用户相关性反馈机制。
  
  三、独立搜索引擎的用户接口
  
  独立搜索引擎的用户接口是指用户与独立搜索引擎的人机界面,通常是一个Web应用程序。它是接收、解释用户的搜索请求,提交给Searcher,检索出的结果与相关评价有序列表显示交互层。用户接口界面的友好与否是用户能否最大限度使用独立搜索引擎各功能的关键。所以用户接口的“人性化”是智能搜索引擎的特征表现。
  
  参考文献:
  [1]赵丹群.信息存储与检索(下).北京大学出版社,1998:43—47页
  [2]马静.搜索引擎机理剖析.中国信息导报2001,(6)
  [3]洪光宗,王皓搜索引擎Robot技术实现的原理分析.现代图书情报技术2002,(1)
  [4]朱俊卿.搜索引擎Google研究.现代图书情报技术,2002(1)
其他文献
1月21日,在省部级主要领导干部坚持底线思维, 着力防范化解重大风险专题研讨班的开班仪式上,习近平总书记特别强调:"坚持底线思维, 增加忧患意识, 提高防控能力,着力防范化解
期刊
2019年,莲都区将高举习近平新时代中国特色社会主义思想伟大旗帜,以"'八八战略'再深化、改革开放再出发"为主题,以"服务企业服务群众服务基层"活动为具体抓手,以"莲都作为"落
期刊
一rn遇到Hen的时候,我已经是平的未婚妻.其实,从我来到这世界的那一刻起,我就已经是平的未婚妻了.听上去很可笑,娃娃亲这样古老而又略带封建色彩的事物竟然会出现在上海这样
当今世界正处于百年未有之大变局. 对开化而言,变局中仍然蕴含着重大机遇. 从全国看,以习近平同志为核心的党中央掌舵领航、举旗定向,科学指引中华民族伟大复兴的巨轮劈风斩
期刊
1     我很早就认识卓航,早到高三。那时,他上大二,是我的家庭教师。   第一次见面,在我小小的卧室。母亲领着他,站在我面前:“这是新请的家教,给你补习英语。”  面前的小伙子高大英俊,比母亲足足高出一个头。他的眼神清新而忧郁,像谁呢?像梁朝伟。  好好好,我咽着口水,我频频点头。念书这样的苦差事,有梁朝伟做伴,做梦都会笑醒。  从此,在我的卧室兼书房,我与卓航耳鬓厮磨。说是耳鬓厮磨,
认真学习习近平总书记在7月26日至27日省部级主要领导干部专题研讨班开班式上的重要讲话,把思想和行动统一到中央精神上来,以昂扬的姿态、优异的成绩迎接党的十九大胜利召开,
期刊
十八届五中全会提出的共享发展理念,把人类社会的永恒追求与共产主义的原则有机结合,进一步丰富和发展了中国特色社会主义理论.回答了谁与谁共享,共享什么,怎样实现共享,中国
期刊
那天我竟然在偌大的城市两次见到一个男人,而且还说了话,这不得不让我怀疑是上天定下的缘分,而他又是那么优秀,所以在象牙塔里生活了4年的我竞有些心动了.上大学的时候,心灵
我上高中以后,就一个人留在这座城市。现在,当我独自面对它的万家灯火时,已不会觉得特别的陌生了,但当初它却让我感到彻骨的寒冷。  高一入学时,学校广播室举办主持人大赛,我凭着一口极纯正而富有磁性的男中音,顺利摘桂并且入选。但美中不足的是,我身高只有1米55,脸形也有些丑陋——这严重地影响了同学们对我的评价,我也为此感到深深的苦恼。但好在我从事的不是电视而是电台直播节目,所以学校“容忍”了我这一缺陷。