论文部分内容阅读
摘 要:本文从搜索引擎原理入手,分析了网站设计过程中需要注意的一些问题,这些问题帮助我们的网站如何更全面更快速更安全的被搜索引擎收录和更优先的被搜索引擎检索。
关键词:搜索引擎原理;网站设计;网络蜘蛛;索引器;检索器Google
1、概述
随着互联网的不断普及和飞速发展,Internet已成为人们快速获取、发布和传递信息的重要渠道。在Internet上发布信息主要是通过网站来实现的,获取信息也是要在Internet中按照一定的检索方式将所需要的信息从网站上下载下来。因此网站建设在Internet应用上的地位显而易见。要想在数以亿计的网页中寻找到自己所需要的信息,选择一个简洁、优秀、高效的搜索引擎至关重要。搜索引擎已经成为人们进行信息资源搜索必不可少的工具。
2、搜索引擎的基本原理
2.1搜索引擎的分类
目录式搜索引擎是以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的主要代表是Yahoo。
全文搜索引擎是由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的主要代表是Google、百度。
元搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行排序和重复排除等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的主要代表是WebCrawler、InfoMarket等。
2.2全文搜索引擎的系统构造
在此我们介绍全文搜索引擎,全文搜索引擎通常由搜索器、索引器、检索器和用户接口等四个部分组成。其系统协作图如下所示:
搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜集信息的策略:一是从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。二是将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。
索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。
检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
3、从搜索引擎各部分探讨网站设计
3.1索器
在搜索器中必须有一个强大的网页收集器(称为“网络蜘蛛”),一个优秀的搜索引擎,需要不断的优化网络蜘蛛的算法,提升其性能。
网络蜘蛛即Web Spider,是通过网页的链接地址来寻找网页,从网站的某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样循环下去,直到把这个网站所有的网页都抓取完为止。
在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。
由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎尽量多的抓取我们的网页。
3.2索引器
Spider或Robot沿着WWW文件的链接在网上漫游,搜索引擎将HTML格式文件取到本地后,由一个小程序将其中的辅助部分去掉,并按一定策略将其中可用于查询的部分(如关键字和一些指定词等)存储到数据库中,形成本地查询数据库,以后再查时就不必到远地去重新获取HTML格式文件了,这种数据库包括标题、摘要、关键词和RUL、文件的大小、语种以及词出现的频率。
网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下,如:www.google.com/robots.txt。所以在网站设计完成时,管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限制,可以用以下两行来描述:User-agent:*Disallow:
当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。
网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页内的链接需要被跟踪。
3.3检索器
检索器的功能在前面已经描述过了,在此我们利用Googel中的检索器来分析一下网站设计中应该注意的问题。
Google拥有多项专利技术,这些技术是Google提供各种特殊检索和特色功能的基础。在这些技术中,最核心、最关键的是PageRankTM技术和超文本匹配分析技术。PageRankTM技术是Google检索结果的一种排序算法,中文通常译为页面级别或页面等级,根据这个算法,Google认为每个网页都有一个反映其重要性的值,值越高表明其页面级别越高,即网页越重要;而超文本匹配分析技术(Hypertext-M atch ingA nalysis)则是Google的一种匹配技术,Google不仅仅关注关键词在网页上出现的次数,它还对该网页的内容以及该网页所链接的内容进行全面检查,从而判断该网页与检索需求的匹配程度。
3.3A、PageRankTM技术
PageRank的基本思想主要是来自传统文献计量学中的文献引文分析,即一篇文献的质量和重要性可以通过其它文献对其引用的数量来衡量,也就是说,一篇文献被其它文献引用越多,则文献质量就越高。在这样一个假设基础之上,一个网页的质量和重要性也可以通过其它网页对其超文本链接的数量来衡量,具体来说,假如网页A有一个指向网页B的链接,则意味着网页A认为网页B是重要的。Google根据网页被链接的数量来评定其重要性。假如有10个网页指向网页A,而指向网页B的链接却只有2个,则说明网页A比网页B更加重要。事实上,在实际计算网页的PageRank值时,Google还考虑到网页A的所有链入网页(链接到某网页的其它网页称为该网页的链入网页)对它的推荐能力(即由于它们对网页A的链接,使人们认为网页A的重要程度)和推荐程度(即它们认为网页A的重要程度)。一个网页本身的PageRank值越高,则它对其链出网页(从某个网页链出的网页称为该网页的链出网页)的推荐能力就越大;一个网页的链出网页越少,那么它对其中一个链出网页的推荐程度就越高。
显然,一个网页的链入数量越多、这些链入网页的PageRank值越高、这些链入网页本身的链出数量越少,则该网页的PageRank值越高。Google给每一个网页都赋予一个初始PageRank值,然后根据PageRank算法计算其PageRank值。通常情况下,Google需要根据以上这个公式进行20次的计算,才能得到最后稳定的网页PageRank值。PageRank技术根据网页之间的链接结构对网页的重要性进行客观的评价,并将网页的PageRank值应用于检索结果的排序。这样,PageRank技术在很大程度上避免和减少了人为因素,客观地将最恰当的检索结果呈现给用户。
3.3B、超文本匹配分析技术(Hypertext-Matching Analys is)
一般的搜索引擎仅仅考虑检索词出现的次数,而Google还在此基础上分析关键词的字体、字号以及关键词在网页中出现的精确位置,并且对该网页的邻近网页(包括链入网页和链出网页)的内容加以分析。Google认为,关键词在网页中出现的位置以及字体等因素,都体现了该关键词在该网页中的重要程度,比如说,如果检索词出现在网页A的标题中,而只是出现在网页B的正文中,那么在不考虑其它因素的情况下,说明网页A与用户需求更匹配。
4、结束语
我们通过解析搜索引擎的工作原理,从搜索引擎的各个组成部分出发,介绍了在网站设计中应该注意的一些问题,使网站设计者尽可能完善自己的网站,从而更容易更安全更快速的被各大搜索引擎收录到他们的索引数据库中。
参考文献:
[1]骆庆等,中文搜索引擎中的网络蜘蛛——福建电脑,2006 年第12期。
[2]金益等,基于“网络蜘蛛原理”的搜索引擎技术剖析——电脑学习2007 年10 月。
[3]杨丽华等,浅谈网站设计——内蒙古科技与经济,2007年3月。
关键词:搜索引擎原理;网站设计;网络蜘蛛;索引器;检索器Google
1、概述
随着互联网的不断普及和飞速发展,Internet已成为人们快速获取、发布和传递信息的重要渠道。在Internet上发布信息主要是通过网站来实现的,获取信息也是要在Internet中按照一定的检索方式将所需要的信息从网站上下载下来。因此网站建设在Internet应用上的地位显而易见。要想在数以亿计的网页中寻找到自己所需要的信息,选择一个简洁、优秀、高效的搜索引擎至关重要。搜索引擎已经成为人们进行信息资源搜索必不可少的工具。
2、搜索引擎的基本原理
2.1搜索引擎的分类
目录式搜索引擎是以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的主要代表是Yahoo。
全文搜索引擎是由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的主要代表是Google、百度。
元搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行排序和重复排除等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的主要代表是WebCrawler、InfoMarket等。
2.2全文搜索引擎的系统构造
在此我们介绍全文搜索引擎,全文搜索引擎通常由搜索器、索引器、检索器和用户接口等四个部分组成。其系统协作图如下所示:
搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜集信息的策略:一是从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。二是将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。
索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。
检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
3、从搜索引擎各部分探讨网站设计
3.1索器
在搜索器中必须有一个强大的网页收集器(称为“网络蜘蛛”),一个优秀的搜索引擎,需要不断的优化网络蜘蛛的算法,提升其性能。
网络蜘蛛即Web Spider,是通过网页的链接地址来寻找网页,从网站的某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样循环下去,直到把这个网站所有的网页都抓取完为止。
在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。
由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎尽量多的抓取我们的网页。
3.2索引器
Spider或Robot沿着WWW文件的链接在网上漫游,搜索引擎将HTML格式文件取到本地后,由一个小程序将其中的辅助部分去掉,并按一定策略将其中可用于查询的部分(如关键字和一些指定词等)存储到数据库中,形成本地查询数据库,以后再查时就不必到远地去重新获取HTML格式文件了,这种数据库包括标题、摘要、关键词和RUL、文件的大小、语种以及词出现的频率。
网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下,如:www.google.com/robots.txt。所以在网站设计完成时,管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限制,可以用以下两行来描述:User-agent:*Disallow:
当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。
网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页内的链接需要被跟踪。
3.3检索器
检索器的功能在前面已经描述过了,在此我们利用Googel中的检索器来分析一下网站设计中应该注意的问题。
Google拥有多项专利技术,这些技术是Google提供各种特殊检索和特色功能的基础。在这些技术中,最核心、最关键的是PageRankTM技术和超文本匹配分析技术。PageRankTM技术是Google检索结果的一种排序算法,中文通常译为页面级别或页面等级,根据这个算法,Google认为每个网页都有一个反映其重要性的值,值越高表明其页面级别越高,即网页越重要;而超文本匹配分析技术(Hypertext-M atch ingA nalysis)则是Google的一种匹配技术,Google不仅仅关注关键词在网页上出现的次数,它还对该网页的内容以及该网页所链接的内容进行全面检查,从而判断该网页与检索需求的匹配程度。
3.3A、PageRankTM技术
PageRank的基本思想主要是来自传统文献计量学中的文献引文分析,即一篇文献的质量和重要性可以通过其它文献对其引用的数量来衡量,也就是说,一篇文献被其它文献引用越多,则文献质量就越高。在这样一个假设基础之上,一个网页的质量和重要性也可以通过其它网页对其超文本链接的数量来衡量,具体来说,假如网页A有一个指向网页B的链接,则意味着网页A认为网页B是重要的。Google根据网页被链接的数量来评定其重要性。假如有10个网页指向网页A,而指向网页B的链接却只有2个,则说明网页A比网页B更加重要。事实上,在实际计算网页的PageRank值时,Google还考虑到网页A的所有链入网页(链接到某网页的其它网页称为该网页的链入网页)对它的推荐能力(即由于它们对网页A的链接,使人们认为网页A的重要程度)和推荐程度(即它们认为网页A的重要程度)。一个网页本身的PageRank值越高,则它对其链出网页(从某个网页链出的网页称为该网页的链出网页)的推荐能力就越大;一个网页的链出网页越少,那么它对其中一个链出网页的推荐程度就越高。
显然,一个网页的链入数量越多、这些链入网页的PageRank值越高、这些链入网页本身的链出数量越少,则该网页的PageRank值越高。Google给每一个网页都赋予一个初始PageRank值,然后根据PageRank算法计算其PageRank值。通常情况下,Google需要根据以上这个公式进行20次的计算,才能得到最后稳定的网页PageRank值。PageRank技术根据网页之间的链接结构对网页的重要性进行客观的评价,并将网页的PageRank值应用于检索结果的排序。这样,PageRank技术在很大程度上避免和减少了人为因素,客观地将最恰当的检索结果呈现给用户。
3.3B、超文本匹配分析技术(Hypertext-Matching Analys is)
一般的搜索引擎仅仅考虑检索词出现的次数,而Google还在此基础上分析关键词的字体、字号以及关键词在网页中出现的精确位置,并且对该网页的邻近网页(包括链入网页和链出网页)的内容加以分析。Google认为,关键词在网页中出现的位置以及字体等因素,都体现了该关键词在该网页中的重要程度,比如说,如果检索词出现在网页A的标题中,而只是出现在网页B的正文中,那么在不考虑其它因素的情况下,说明网页A与用户需求更匹配。
4、结束语
我们通过解析搜索引擎的工作原理,从搜索引擎的各个组成部分出发,介绍了在网站设计中应该注意的一些问题,使网站设计者尽可能完善自己的网站,从而更容易更安全更快速的被各大搜索引擎收录到他们的索引数据库中。
参考文献:
[1]骆庆等,中文搜索引擎中的网络蜘蛛——福建电脑,2006 年第12期。
[2]金益等,基于“网络蜘蛛原理”的搜索引擎技术剖析——电脑学习2007 年10 月。
[3]杨丽华等,浅谈网站设计——内蒙古科技与经济,2007年3月。