基于Robot搜索引擎的自动检索技术

来源 :中国信息导报 | 被引量 : 0次 | 上传用户:qqiuhe123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  1.产生背景和功能
  
  1993年以前,多数WWW用户采用的查找方法是从一个WWW服务器中的某一个URL开始,沿其中的超链(Hyperlink)连接到其它URL。但由于世界上的WWW服务站点数量非常多,所以由手工进行查找是既费时又费力,需要大量的人力来进行搜集、排序、编成HTML文件并进行维护,该方法速度很慢,并且更新周期长。1994年出现了所谓的Robot或称Spider,它们的功能是自动在Web上按某种策略进行远程数据的搜索与获取,并生成本地索引。由于不需要人的介入,可以自动地在网络中穿梭,速度、覆盖面和及时性大大提高。
  Robot自动搜集和索引系统,不需要多余的人力参与。这种系统最大的特点是使用索引策略,由软件程序自动进行数据收集和索引,查找网站和网页的次序,而不是手工收集和索引。也就是说Robot自动在Internet上搜寻WWW、gopher和ftp等站点资源,返回相应数据并对它建立索引,产生一个数据库。Robot是一种计算机的程序,该程序最重要的功能是使用索引策略,用题目、URL、关键词进行索引,也可以是这几项的某种组合检索。
  
  2.原理和实现
  
  Robot是一个能够沿着链接漫游Web文档集合的程序。它一般驻留在服务器上,通过给定的一些URL,它能够利用像HTTP这样的标准协议读取相应文档,然后以文档中包括的所有新的(未访问过的)URL作为新的起点,继续进行漫游,直到没有满足条件的新URL为止。因此,用户只要提供一个URL,Robot就能够追溯并发现所有从该URL直接或间接可达的文档,并为之建立索引。基于Robot的搜索引擎一般要定期访问大多数以前搜集的网页,刷新索引,以反映出网页的更新情况,去除一些死链接,网页的部分内容和变化情况将会反映到用户查询的结果中,这是基于Robot的搜索引擎的一个重要特征。
  这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google。国内的代表为:天网、悠游、OpenFind等。它的工作原理通常是:首先是由自动搜索软件Robot访问一个站点,并通过其中的链接阅读该站点的页面(一般到三级页面),然后将获得的站点信息形成一个巨大的网页信息库以备用户查询。当用户通过查询内容提出检索要求时,该软件就会在其数据库中找到相关内容,然后按照既定规则进行排序。各个搜索引擎的排序规则是不尽相同的,特别是站点的内容与查询词的关联程度。那么,搜索引擎又是如何确定一个站点内容的呢?自动搜索软件访问一个站点时,通常会进行以下工作:从网页标题中检索关键词;从网页Meta标签中检索关键词和描述字段;从网页正文,尤其是正文前250个字中计算检索词出现的次数。搜索引擎根据以上结果来决定一个站点的内容与查询词的关联程度。关键词或检索词出现的次数越多,则该网页与检索要求的相关度越高,在搜索引擎中的排名就越靠前。由于Internet的数据量大,在现有的机器和网络条件下,搜索引擎只能对部分Internet上的资料进行采集;加上搜索的索引策略不同,所以相同关键词的搜索在不同的搜索器上可以有截然不同的结果。
  如果把整个Internet看作是一个图或一棵树的话,可以发现Robot技术的基本工作原理和人工智能中的搜索树一样,在计算机中可以方便地使用递归方法实现:(1)根据首页进行搜索,相当于搜索树的根;(2)根据首页的第1个链接到下一个页面;(3)重复(1)和(2);(4)到某页已经没有链接,回退上一级页面的下一个链接,如此循环往复。但若要建立全面的索引数据库,必须对WWW系统进行遍历。总之,Robot可以系统地、周期性地访问WWW,从而建立较为全面的索引库,并能保持对库的不断更新。在遍历的过程中,为了提高其效率,可以融入人工智能的方法使其变得智能化,使搜索引擎越来越贴近用户。
  
  3.特点和存在问题
  
  由于Robot能够快速地、周期性地浏览Web,获取最新的信息,所以基于Robot的资源发现工具一般都可以建立并维持较大规模的索引数据库。其优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。能自动从互联网上收集网页的数据并充实到本地数据库中,定期检查网页是否更新或链接是否失效,同时需要比较哪些是重复信息,互联网上互相转载的内容相当多,重复信息也很多,识别它们需要经过很多处理,另外变化无穷的动态网页还会对其运行产生影响等等。而传统的数据搜索只是搜索自身数据库的内容,或者用户登记到数据库的信息,信息量太少。例如,Alta Vista的索引数据库包含3100万个Web页,Excite则包含约5000万个Web页,Lycos有近7000万个URL索引,等等。这些工具因为拥有大量的网页信息,因而在实际应用中很受欢迎。
  Robot作为一个程序,可以运行在Unix、Solaris、Windows、NT、OS2和MAC等平台上。然而Robot设计是否合理将直接影响它访问Web的效率,影响搜索数据库的质量。另外,在设计Robot时还必须考虑它对网络和被访问站点的影响,因为Robot一般都运行在速度快、带宽高的主机上,如果它快速访问一个速度比较慢的目标站点,就有可能会导致该站点出现阻塞甚至停机。Robot还应遵守一些协议,以便被访问站点的管理员能够确定哪些内容能被访问,哪些不能。
  Robot软件是WebRD获取数据的主要工作方式,虽然目前应用较广,但存在的问题也是比较多的。首先,Robot频繁地访问各个Web站点,会给网络和被访问的Web服务器带来较大的负担;其次,Robot不加区分地搜寻所有可达的文档,并为之建立索引,常常使索引数据库变得十分臃肿;第三,信息搜寻算法的选取、设计问题,会直接影响到搜集引擎的工作效率;第四,基于Robot的搜索引擎必须随着Internet的发展不断扩大自己的网页数据库,由此会产生很多技术难题,例如怎样及时地获取新网页和刷新数据库,当数据库增大之后如何保证查询效率不会明显降低。目前要解决这些问题还没有一个切实可行的办法,只能依赖于设计合理的并行处理技术。如果仅仅是从远程获得数据,实现一个Robot并不很难。但由于每个Robot都是与一定的索引和检索技术相联系的,所以它必须要能与其它模块相配合工作。因而在实现时要考虑很多相关技术,如HTTP协议、HTML语言、分词技术、数据的存储、公共网关接口CGI等。其中HTTP、HTML是实现Robot的最基本的关键技术。对它们的研究和实现将大大提高信息发现和检索系统的性能,增加用户查询的命中率,提高网上信息资源的利用率。▲
  
  参考文献
  1. 赵丹群基于Web资源发现工具的技术分析.情报学报,1999(2)
  2 .车雪松因特网上的导航技术黑龙江通信技术,1999(3)
  3 .许龙飞基于Web的数据库技术与应用.现代计算机,2000(2)
  4 张开舟等万维网信息检索系统开发技术.情报学报,2000(2)
  (作者单位:扬州大学图书馆盐阜路校区分馆江苏扬州225001)
其他文献
1998年9月斯坦福大学两位博士生Larry Page与Sergey Brin设计了Google(www.google.com)搜索引擎,1999年Google Inc.创立。迄今,Google已经获得30多项业界大奖。Google的成功得益于其强大的功能和独到的特点,目前,各大引擎竞相模仿Google的功能和特色,如网页快照,偏好设置等。Google成为众多搜索引擎的领头羊。Google非中国本
期刊
Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。  随着商业竞争的日益激烈,各个企业都纷纷建立了自己的竞争情报系统,以提高自身的竞争力。互联网为竞争情报工作提供了丰富的信息资源,Web挖掘作为一种开发利用网络资源的有力工具,在企业竞争情报系统的工作中,可
期刊
虚拟专用网(VPN)可以简单地理解为在公众网络上建立的属于自己的私有数据网络。虚拟专用网可以使每个企业临时从公用网中获得一部分资源供自己专用。VPN网络中结点间的连接是通过专用的网络加密和通讯协议在公共网络上临时建立起一条加密通道,为用户提供专用的安全通信网络。由于结点间并没有真正建立端到端的物理链路,所以称为虚拟专用网。VPN系统工作的基本原理是:1.要保护主机的明文信息(即未加密的信息)安全地
期刊
编者按:日前,国家科学技术学术著作出版基金委员会正式公布2002年度国家科学技术学术著作出版基金资助项目共计62项(详见下表)。这62项是按照“自由申请、公平竞争、专家评议、择优支持”的原则,从112个受理申请的项目中通过评审产生的。     背景链接  国家科学技术学术著作出版基金委员会(简称“出版基金委”)管理下的国家科学技术学术著作出版基金(以下简称学术著作出版基金)是1997年国家财政拨
期刊
本刊讯2003年1月6日,科技部在京召开全国科技工作会议。会议的中心议题是:深入学习贯彻十六大精神和“三个代表”重要思想,贯彻中央经济工作会议精神,认真总结2002年科技工作及13年来的基本经验,研究如何从全局和战略高度把握科技工作的方向和重点,明确2003年科技工作的总体思路和主要任务,为全面建设小康社会做出新的贡献。  这次会议是新世纪科技界举行的一次团结、务实的大会,也是“十五”计划进入攻坚
期刊
一、企业需要优化网络    当前,企业对IT新技术的投资在减少,而把更多资金用于改进现有IT设备的性能、可靠性和运行效果,以满足业务发展需求。企业正计划采用便于扩展的技术来构建他们的网络,并根据企业的需要优化网络。网络优化的目的是为了发挥网络的先进功能和支持新型的Web应用,进一步提升生产率。优化和简化网络管理可以避免由于各种问题而导致操作成本的增长。在网络建设中使用现行技术可以满足不断增长的员工
期刊
国内互联网市场经过多年的培育,原有的网络容量早已不能满足用户日益增长的需求。广电、网通、长宽等一些新兴的运营商开始盯上接入这块市场。多家运营商的介入,直接引发了一轮宽带“圈地运动”,大众用户已经有了多种选择。目前,是ADSL唱主角,但未来前景如何,殊难预料。    一、宽带市场主角之争    1.ADSL成为主角  2001年,中国电信在广州一共发展了6万多ADSL用户,而整个广东市场的用户超过2
期刊
一、美国的“教育发展战略规划”    1996年元旦,克林顿在连任总统的就职演说中呼吁,社会各方应联合起来确保美国每一所学校的每一间教室都配上电脑、实用软件和训练有素的教师,所有电脑都连上信息高速公路。1997年9月,美国教育部提出了《1998-2002年教育发展战略规划》[1],阐述了教育改革与发展的七大优先事项,其中第五项目标为“到2002年止所有教室都连上互联网,并完成网络技术的脱盲”。具体
期刊
12月3日,在中国电子信息产业发展研究院(CCID)主办、北京赛迪信息技术评测有限公司和中国计算机报承办的“2002年CCID中国信息技术年会”上,赛迪评测公司推出了16个专题的“2002-2003年中国IT产品技术应用现状与发展研究年度报告”和18种信息技术产品的测试规范。本文作者在这些报告和规范的基础上,针对2002年度我国主流IT产品性能指标的严格测试和应用状况的分析,提出了未来几年产品技术
期刊
在基于互联网/内联网环境中,企业通过网络进行设计、采购、生产、运输和销售等管理及商务活动,也就是说企业借用信息系统与供应商、制造商、分销商、零售商及最终的用户来完成整个生产流程。这个流程中也包括与运营有间接联系的银行、保险公司、信息服务商、3LP(第三方物流企业)和行业组织等。前者对于企业来说是一种以“价值链”粘结起来的动态联盟,信息交流十分频繁,在流量上具有对等性,是信息流的主体。后者在流向和流
期刊