从搜索引擎原理分析网站设计

来源 :理论纵横 | 被引量 : 0次 | 上传用户:onewxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文从搜索引擎原理入手,分析了网站设计过程中需要注意的一些问题,这些问题帮助我们的网站如何更全面更快速更安全的被搜索引擎收录和更优先的被搜索引擎检索。
  关键词:搜索引擎原理;网站设计;网络蜘蛛;索引器;检索器Google
  
  1、概述
  随着互联网的不断普及和飞速发展,Internet已成为人们快速获取、发布和传递信息的重要渠道。在Internet上发布信息主要是通过网站来实现的,获取信息也是要在Internet中按照一定的检索方式将所需要的信息从网站上下载下来。因此网站建设在Internet应用上的地位显而易见。要想在数以亿计的网页中寻找到自己所需要的信息,选择一个简洁、优秀、高效的搜索引擎至关重要。搜索引擎已经成为人们进行信息资源搜索必不可少的工具。
  2、搜索引擎的基本原理
  2.1搜索引擎的分类
  目录式搜索引擎是以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的主要代表是Yahoo。
  全文搜索引擎是由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的主要代表是Google、百度。
  元搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行排序和重复排除等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的主要代表是WebCrawler、InfoMarket等。
  2.2全文搜索引擎的系统构造
  在此我们介绍全文搜索引擎,全文搜索引擎通常由搜索器、索引器、检索器和用户接口等四个部分组成。其系统协作图如下所示:
  
  搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜集信息的策略:一是从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。二是将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。
  索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。
  检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
  
  3、从搜索引擎各部分探讨网站设计
  3.1索器
  在搜索器中必须有一个强大的网页收集器(称为“网络蜘蛛”),一个优秀的搜索引擎,需要不断的优化网络蜘蛛的算法,提升其性能。
  网络蜘蛛即Web Spider,是通过网页的链接地址来寻找网页,从网站的某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样循环下去,直到把这个网站所有的网页都抓取完为止。
  在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。
  
  由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎尽量多的抓取我们的网页。
  3.2索引器
  Spider或Robot沿着WWW文件的链接在网上漫游,搜索引擎将HTML格式文件取到本地后,由一个小程序将其中的辅助部分去掉,并按一定策略将其中可用于查询的部分(如关键字和一些指定词等)存储到数据库中,形成本地查询数据库,以后再查时就不必到远地去重新获取HTML格式文件了,这种数据库包括标题、摘要、关键词和RUL、文件的大小、语种以及词出现的频率。
  网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下,如:www.google.com/robots.txt。所以在网站设计完成时,管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限制,可以用以下两行来描述:User-agent:*Disallow:
  当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。
  网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页内的链接需要被跟踪。
  3.3检索器
  检索器的功能在前面已经描述过了,在此我们利用Googel中的检索器来分析一下网站设计中应该注意的问题。
  Google拥有多项专利技术,这些技术是Google提供各种特殊检索和特色功能的基础。在这些技术中,最核心、最关键的是PageRankTM技术和超文本匹配分析技术。PageRankTM技术是Google检索结果的一种排序算法,中文通常译为页面级别或页面等级,根据这个算法,Google认为每个网页都有一个反映其重要性的值,值越高表明其页面级别越高,即网页越重要;而超文本匹配分析技术(Hypertext-M atch ingA nalysis)则是Google的一种匹配技术,Google不仅仅关注关键词在网页上出现的次数,它还对该网页的内容以及该网页所链接的内容进行全面检查,从而判断该网页与检索需求的匹配程度。
  3.3A、PageRankTM技术
  PageRank的基本思想主要是来自传统文献计量学中的文献引文分析,即一篇文献的质量和重要性可以通过其它文献对其引用的数量来衡量,也就是说,一篇文献被其它文献引用越多,则文献质量就越高。在这样一个假设基础之上,一个网页的质量和重要性也可以通过其它网页对其超文本链接的数量来衡量,具体来说,假如网页A有一个指向网页B的链接,则意味着网页A认为网页B是重要的。Google根据网页被链接的数量来评定其重要性。假如有10个网页指向网页A,而指向网页B的链接却只有2个,则说明网页A比网页B更加重要。事实上,在实际计算网页的PageRank值时,Google还考虑到网页A的所有链入网页(链接到某网页的其它网页称为该网页的链入网页)对它的推荐能力(即由于它们对网页A的链接,使人们认为网页A的重要程度)和推荐程度(即它们认为网页A的重要程度)。一个网页本身的PageRank值越高,则它对其链出网页(从某个网页链出的网页称为该网页的链出网页)的推荐能力就越大;一个网页的链出网页越少,那么它对其中一个链出网页的推荐程度就越高。
  显然,一个网页的链入数量越多、这些链入网页的PageRank值越高、这些链入网页本身的链出数量越少,则该网页的PageRank值越高。Google给每一个网页都赋予一个初始PageRank值,然后根据PageRank算法计算其PageRank值。通常情况下,Google需要根据以上这个公式进行20次的计算,才能得到最后稳定的网页PageRank值。PageRank技术根据网页之间的链接结构对网页的重要性进行客观的评价,并将网页的PageRank值应用于检索结果的排序。这样,PageRank技术在很大程度上避免和减少了人为因素,客观地将最恰当的检索结果呈现给用户。
  3.3B、超文本匹配分析技术(Hypertext-Matching Analys is)
  一般的搜索引擎仅仅考虑检索词出现的次数,而Google还在此基础上分析关键词的字体、字号以及关键词在网页中出现的精确位置,并且对该网页的邻近网页(包括链入网页和链出网页)的内容加以分析。Google认为,关键词在网页中出现的位置以及字体等因素,都体现了该关键词在该网页中的重要程度,比如说,如果检索词出现在网页A的标题中,而只是出现在网页B的正文中,那么在不考虑其它因素的情况下,说明网页A与用户需求更匹配。
  4、结束语
  我们通过解析搜索引擎的工作原理,从搜索引擎的各个组成部分出发,介绍了在网站设计中应该注意的一些问题,使网站设计者尽可能完善自己的网站,从而更容易更安全更快速的被各大搜索引擎收录到他们的索引数据库中。
  
  参考文献:
  [1]骆庆等,中文搜索引擎中的网络蜘蛛——福建电脑,2006 年第12期。
  [2]金益等,基于“网络蜘蛛原理”的搜索引擎技术剖析——电脑学习2007 年10 月。
  [3]杨丽华等,浅谈网站设计——内蒙古科技与经济,2007年3月。
其他文献
摘 要:《巴黎手稿》包含着丰富而深刻的美学思想,在马克思主义美学史上占有极重要的地位。疏析《巴黎手稿》美学思想,探讨马克思美学思想的现实意义,对于在教学中引导学生从正确的角度来理解命题,促进学生全面、协调发展,具有重要的理论指导意义。  关键词:美的来源;异化劳动;美的规律    《巴黎手稿》全称为《1844年经济学——哲学手稿》,它是1844年4月到8月间马克思在巴黎研究政治经济学时留下来的宝贵
期刊
摘 要:中国传统产品设计以其独特风格享誉世界。然而在上世纪,中国产品设计却逐渐丧失其风格,走上了模仿的道路,21世纪以后,中国的设计又逐渐步入正轨,展现出设计魅力。针对这一变化加以分析,得出中国的设计风格出现几次转折的原因,明确要振兴中国设计,必须扎根传统设计,古为今用,洋为中用,百花齐放,推陈出新。  关键词:风格;产品;中国;淡漠    “秦时明月,汉时关”,古往今来,中华文明源远流长,五千年
期刊
摘 要:重视对人的思想认识规律的研究和掌握,是加强经常性思想政治工作预见性和有效性的重要途径。我们要从马克思主义的基本思想认识规律出发,探索思想政治工作的新途径和新方法。  关键词:思想认识规律;思想政治工作;预见性;有效性    人类的活动是有意识,有目的的活动,因此,人的思想认识是建立在客观事物发展变化的基础之上的,并受一定的自然条件和社会历史条件的制约,违背了事物的发展规律、不顾客观条件限制
期刊
摘 要:中国处于社会发展的关键时期,随着改革的深入,人口流动正以空前的速度和规模发生着。如此大规模的人口迁徙,带来了一系列值得我们关注与研究的问题。其中流动人口选举权的实现问题尤为突出。  关键词:流动人口;户籍制度;选举权    一、我国户籍制度与选举权的规定  1958年1月9日,全国人民代表大会常务委员会通过了《中华人民共和国户口登记条例》,第十条第二款明确规定:“公民由农村迁往城市,必须持
期刊
摘 要:人力资源管理从80年代确立至今,已经历了近20年的发展。这期间,全球的社会经济环境已发生了巨大变化,特别是以计算机技术和现代通信技术为代表的信息科技正改变着我们生活、工作的方方面面,社会正从后工业社会而迈入知识经济社会。组织赖以生存的外部环境和组织的竞争方式也正进行着悄无声息但却深入持久地变革,组织的各种管理职能必须应潮流,不断改变自身以应对正在改变着的世界。  关键词:全球化;人力资源管
期刊
摘 要:《厦门典藏契约文书》为地方史的研究提供了丰富而又珍贵的历史资料,本文主要是从训诂学的角度,就其中的清代契约文书,来谈一下自己的发现、看法。  关键词:俗字;训释;校正;方言    《厦门典藏契约文书》是厦门市博物馆研究丛书中的一本,2006年10月新出的。其中收集了闽台两地,自康熙年间至建国初期1000多件、鲜为人知的民间私人文书,正是这些残破陈旧的历史碎片,为地方史的研究提供了丰富而又
期刊
摘 要:作者结合工作实践,针对军队审计人员综合素质不高的现状,从加强政治素质建设、业务素质建设和法制意识建设三个方面阐述了如何提高军队审计人员综合素质,以提高军队审计工作质量,加强审计监督。  关键词:审计人员;综合素质;对策    军队审计人员身处要职,工作在军队审计工作的前沿,是依法从严治军和贯彻执行法规制度的具体组织者、实践者。但从目前情况看,一些审计人员综合素质还不高,在工作开展中不敢管、
期刊
摘 要:充满希望的二十一世纪的技校生,面对职业理想遭遇现实的尴尬和残酷时需要政府的支持和关怀,需要在学校教师的指导下,学会正确择业,学会承受挫折,学会“素质升级换代”,一定能顺利就业。  关键词:技校生;职业;理想;现实;对策    职业是劳动者从事相对稳定的、有报酬的工作种类。它具有稳定性、经济性、劳动伦理性、层次性四个基本特征。中国日渐频繁的企业组织结构的调整,严重的下岗失业问题对中国经济、社
期刊
摘 要:面对日益严峻的能源问题,我们的出路无非是两条:一是“开源”,二是“节流”即节约能源、提高能效。节约能源、提高能效,构建节约型社会,必须使国民主体精神向“节约化(节能化)”转化。节能规范的道德化是主体节能化的基础和前提。节能规范的道德化,就是要把节能的内在要求转化为人们实际生活中的道德规范,内化为人们的道德文化心理或道德品质。只有这样,才能变“要我节能”为“我要节能”,变“自觉”为“自律”。
期刊
摘 要:基于网络应用的研究性学习,是指学员利用网络资源进行自主性学习的过程。本文主要是从理论的角度来探讨什么是网络研究性学习模式,并思考其实施过程中可能会遇到的困难以及需要注意的问题。  关键词:网络应用;研究性学习      随着信息技术的发展,教育信息化存在的必要已经是一个不争的事实,信息化在教育领域的推进正在向学科应用深入。在2001年,“基于网络应用的研究性学习”这个概念即被人提出来了,并
期刊