论文部分内容阅读
何为搜索引擎
搜索引擎一词在国内外互联网领域被广泛使用,然而,它的含义却不尽相同。在美国,搜索引擎(SEARCH ENGINE)通常指的是基于互联网的搜索引擎,这种引擎收集互联网上几千万到几亿个网页数量不等,并且每一个网页上的每一个词都被搜索引擎所收录,也就是我们所说的全文检索。典型的互联网搜索引擎包括Altavista,Inktomi,Infoseek等。在中国,搜索引擎通常指的是基于网站目录的搜索服务或是特定网站的搜索服务。前者如搜狐、新浪等公司开发的网站搜索服务,后者如一些网站上提供的全文检索服务。
搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的到排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。互联网搜索引擎除了需要有全文检索系统之外,还要有所谓的“蜘蛛”(SPIDER)系统,即能够从互联网上自动收集网页的数据搜集系统。蜘蛛将搜集所得的网页内容交给索引和检索系统处理,就形成了我们常见的互联网搜索引擎系统。
当然,一个完整的搜索引擎系统还需要有一个检索结果的页面生成系统,也就是要把检索结果高效地组装成万维网页面。当系统的访问量(PAGE VIEW) 变大时,页面生成系统往往会成为整个系统的瓶颈。与传统的信息检索理论研究不同,搜索引擎的用户看重的是系统的稳定性、速度、易用性和返回的信息量及相关度。
搜索引擎面临的挑战与机遇
WEB 商业化至今,搜索引擎始终保持着网络上被使用最多的服务项目的地位,然而,随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种信息需求。这表现在以下几个方面:
搜索引擎对自然语言提问没有理解能力;所有著名的搜索引擎都不支持中文或是对中文的支持极弱;搜索引擎收集的网页数量和其数据库的更新速度存在着不可调和的矛盾;搜索引擎无法与电子商务紧密结合;搜索引擎对多媒体内容的处理尚不成熟。
在过去的几年中,国内对基于互联网的搜索引擎的开发也作过一些尝试,例如北大的天网,清华的网络指南针等,但是由于这种搜索引擎的开发难度相当大,该方面的专业人才奇缺,有开发这种搜索引擎经验的人,即使在硅谷也属凤毛麟角,加之它对硬件的投入要求也非常高,商业化的互联网中文搜索引擎一直没有出现。
其实,网站目录通常是经过人工分类的有系统的网站列表,通常附带有搜索功能,但是网站目录并不就是搜索引擎。而且,并非门户站点才提供搜索服务。实际上,搜索引擎完全可以为内容提供商(ICP)、门户网站提供专业的搜索服务,而不必直接面对用户,这是一种典型的应用服务提供(ASP)模式。网站门户公司也意识到了它们的长处并不是搜索技术的创新,而是互联网上大众品牌的建立。所以纷纷将搜索服务的“重任”交给ASP。
搜索引擎是互联网上最先商业化的一个应用服务,互联网搜索引擎是一个全自动的软件服务,并且非常容易在搜索结果网页中插入具有很高针对性的广告,CPM 最高可达70美元;所以一旦投入运转,其收益与成本的比率远高于一般的网站内容服务。
当然,中文搜索引擎技术目前尚未成熟。不要说中文,即使英文的搜索引擎也没有发展成熟。这是因为搜索引擎技术变化非常快,这些网站无法自行跟踪最前沿的技术。中文搜索引擎技术出现的时间并不比英文的晚多少,然而发展速度却远远赶不上英文,这是由于网页级搜索引擎的开发难度相当大,该方面的专业人才奇缺,有开发这种搜索引擎经验的人,即使在硅谷也属凤毛麟角,开发所需要的硬件要求也比一般的网页制作高出很多。
中文与英文最大的不同之处在于中文中有词的概念,检索字串与网页中文字的简单匹配并不见得就是语义上的匹配;要想提高中文搜索的相关性,必须结合中文词和中文字,并使用一些先进的算法,如新一代信息检索(IR)算法、超链分析(Link Analysis)等。中文搜索也有许多英文搜索望尘莫及之处,如中文网页极少有针对搜索引擎的欺骗(Spamming)行为,中文没有单复数、时态等的变化,大多数先进的算法也完全适用于中文。因此,中文搜索的相关性完全可以与英文媲美。
搜索引擎的未来
搜索引擎的发展经过了几个阶段,起初大家一味地追求数据库的大小,即收集的网页的多少;后来发现对同一用户提问,搜索引擎返回的信息太多,用户感到无所适从。1996年起,搜索引擎技术开始注重网页质量与相关性的结合,这主要是通过三种手段:一是对网上的超链结构进行分析,如Infoseek和Google;二是对用户的点击行为进行分析,如Directhit(被ASK JEEVES收购);三是与网站目录相结合。最新的趋势则是搜索的个性化和本地化。
个性化:入门网站的个性化已经比较成熟了,但是搜索引擎的个性化并没有得到解决,不同的人使用相同的检索词得到的结果是相同的。也就是说搜索引擎没有考虑人的地域、性别、年龄等方面的差别。Directhit 等公司一年前开始了个性化方面的研发工作,但至今没有推出任何产品。
本地化:本地化是一个比个性化更明显的趋势。随着互联网在全球的迅速普及,综合性的搜索引擎已经不能满足很多非美国网民的信息需求。近来,Yahoo!、 Inktomi、 Lycos等公司不断推出各国、各地区的本地搜索网站,搜索的本地化已经是势不可挡。
某些中文网站的网页搜索服务外包给了一些服务器在境外的应用服务提供商(ASP),如AltaVista或Openfind等,由于用户搜索需要占用出国带宽,因而速度极慢。这不是中文搜索引擎的错,而是这些网站没有选对ASP 所致。目前大多数的中文搜索引擎都收集了较少数量的网页,收集上百万的就算是信息量很大了;可是随着中国互联网的繁荣、政府、企业和各行各业对互联网的重视,以及大量风险投资的进入,中文互联网的内容日益丰富,网页数量激增。因此,率先在国内提供中文信息检索的ASP必将首先占领一个全新的大市场。