新搜索时代

来源 :互联网世界 | 被引量 : 0次 | 上传用户:wd1219981997
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  
  何为搜索引擎
  搜索引擎一词在国内外互联网领域被广泛使用,然而,它的含义却不尽相同。在美国,搜索引擎(SEARCH ENGINE)通常指的是基于互联网的搜索引擎,这种引擎收集互联网上几千万到几亿个网页数量不等,并且每一个网页上的每一个词都被搜索引擎所收录,也就是我们所说的全文检索。典型的互联网搜索引擎包括Altavista,Inktomi,Infoseek等。在中国,搜索引擎通常指的是基于网站目录的搜索服务或是特定网站的搜索服务。前者如搜狐、新浪等公司开发的网站搜索服务,后者如一些网站上提供的全文检索服务。
  搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的到排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。互联网搜索引擎除了需要有全文检索系统之外,还要有所谓的“蜘蛛”(SPIDER)系统,即能够从互联网上自动收集网页的数据搜集系统。蜘蛛将搜集所得的网页内容交给索引和检索系统处理,就形成了我们常见的互联网搜索引擎系统。


  当然,一个完整的搜索引擎系统还需要有一个检索结果的页面生成系统,也就是要把检索结果高效地组装成万维网页面。当系统的访问量(PAGE VIEW) 变大时,页面生成系统往往会成为整个系统的瓶颈。与传统的信息检索理论研究不同,搜索引擎的用户看重的是系统的稳定性、速度、易用性和返回的信息量及相关度。
  
  搜索引擎面临的挑战与机遇
  
  WEB 商业化至今,搜索引擎始终保持着网络上被使用最多的服务项目的地位,然而,随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种信息需求。这表现在以下几个方面:
  搜索引擎对自然语言提问没有理解能力;所有著名的搜索引擎都不支持中文或是对中文的支持极弱;搜索引擎收集的网页数量和其数据库的更新速度存在着不可调和的矛盾;搜索引擎无法与电子商务紧密结合;搜索引擎对多媒体内容的处理尚不成熟。
  在过去的几年中,国内对基于互联网的搜索引擎的开发也作过一些尝试,例如北大的天网,清华的网络指南针等,但是由于这种搜索引擎的开发难度相当大,该方面的专业人才奇缺,有开发这种搜索引擎经验的人,即使在硅谷也属凤毛麟角,加之它对硬件的投入要求也非常高,商业化的互联网中文搜索引擎一直没有出现。
  其实,网站目录通常是经过人工分类的有系统的网站列表,通常附带有搜索功能,但是网站目录并不就是搜索引擎。而且,并非门户站点才提供搜索服务。实际上,搜索引擎完全可以为内容提供商(ICP)、门户网站提供专业的搜索服务,而不必直接面对用户,这是一种典型的应用服务提供(ASP)模式。网站门户公司也意识到了它们的长处并不是搜索技术的创新,而是互联网上大众品牌的建立。所以纷纷将搜索服务的“重任”交给ASP。
  搜索引擎是互联网上最先商业化的一个应用服务,互联网搜索引擎是一个全自动的软件服务,并且非常容易在搜索结果网页中插入具有很高针对性的广告,CPM 最高可达70美元;所以一旦投入运转,其收益与成本的比率远高于一般的网站内容服务。
  当然,中文搜索引擎技术目前尚未成熟。不要说中文,即使英文的搜索引擎也没有发展成熟。这是因为搜索引擎技术变化非常快,这些网站无法自行跟踪最前沿的技术。中文搜索引擎技术出现的时间并不比英文的晚多少,然而发展速度却远远赶不上英文,这是由于网页级搜索引擎的开发难度相当大,该方面的专业人才奇缺,有开发这种搜索引擎经验的人,即使在硅谷也属凤毛麟角,开发所需要的硬件要求也比一般的网页制作高出很多。
  中文与英文最大的不同之处在于中文中有词的概念,检索字串与网页中文字的简单匹配并不见得就是语义上的匹配;要想提高中文搜索的相关性,必须结合中文词和中文字,并使用一些先进的算法,如新一代信息检索(IR)算法、超链分析(Link Analysis)等。中文搜索也有许多英文搜索望尘莫及之处,如中文网页极少有针对搜索引擎的欺骗(Spamming)行为,中文没有单复数、时态等的变化,大多数先进的算法也完全适用于中文。因此,中文搜索的相关性完全可以与英文媲美。
  
  搜索引擎的未来
  
  搜索引擎的发展经过了几个阶段,起初大家一味地追求数据库的大小,即收集的网页的多少;后来发现对同一用户提问,搜索引擎返回的信息太多,用户感到无所适从。1996年起,搜索引擎技术开始注重网页质量与相关性的结合,这主要是通过三种手段:一是对网上的超链结构进行分析,如Infoseek和Google;二是对用户的点击行为进行分析,如Directhit(被ASK JEEVES收购);三是与网站目录相结合。最新的趋势则是搜索的个性化和本地化。
  个性化:入门网站的个性化已经比较成熟了,但是搜索引擎的个性化并没有得到解决,不同的人使用相同的检索词得到的结果是相同的。也就是说搜索引擎没有考虑人的地域、性别、年龄等方面的差别。Directhit 等公司一年前开始了个性化方面的研发工作,但至今没有推出任何产品。
  本地化:本地化是一个比个性化更明显的趋势。随着互联网在全球的迅速普及,综合性的搜索引擎已经不能满足很多非美国网民的信息需求。近来,Yahoo!、 Inktomi、 Lycos等公司不断推出各国、各地区的本地搜索网站,搜索的本地化已经是势不可挡。
  某些中文网站的网页搜索服务外包给了一些服务器在境外的应用服务提供商(ASP),如AltaVista或Openfind等,由于用户搜索需要占用出国带宽,因而速度极慢。这不是中文搜索引擎的错,而是这些网站没有选对ASP 所致。目前大多数的中文搜索引擎都收集了较少数量的网页,收集上百万的就算是信息量很大了;可是随着中国互联网的繁荣、政府、企业和各行各业对互联网的重视,以及大量风险投资的进入,中文互联网的内容日益丰富,网页数量激增。因此,率先在国内提供中文信息检索的ASP必将首先占领一个全新的大市场。
其他文献
中兴新太宽带信息网事业部副总工 黄海吉  “互联网正在改变一切”。今天互联网和通讯技术的进步,使技术和业务的结合和交叉呈现出无限的变化和前景。各种技术的运用,使得企业、运营商、政府等有更多的手段为客户、商家提供完善的应用产品和全面丰富的服务体系。互联网的发展改变了运营及服务的模式;完善了信息沟通途径;重新提出了一个崭新的商务模式。  通过对技术的跟踪及对市场的了解,中兴新太数据通信有限公司推出了
期刊
一、电子商务与ERP    在我国,企业实施“企业资源计划”(ERP),曾经经历过多次“高潮”。虽有成功的经验,但多数企业的领导们仍然对于花这么多钱搞ERP是否值得感到疑惑。因此,当今天互联网、电子商务来临之际,他们就会感到更加困惑:碰到的到底是最令人兴奋的商机还是最可怕的挑战?  ERP的投资,主要用于企业内部,并把注意力集中在如何使企业自身运转更加有效。相比之下,互联网主要是解决与外部世界的通
期刊
信息技术的发展、计算机、通信的发展,向人们展现了一个崭新的网络时代。仅仅两年前,1997年12月,按照CNNIC统计,中国还只有60万人上网,而到1999年12月,上网人数就已达900万。人们可以相信,到2000年底,中国上网人数会超过2000万。互联网已经广泛地深入到千家万户,发展速度惊人。这样一种态势,我们称之为网络经济,它不能不引起所有人的关注:网络经济的兴起,将给我们的生产、工作、学习和生
期刊
目前国内业界人士已普遍达成共识:我们的世界正在演变为一个电子化的世界(E-World),所有的信息正在全面数字化,电子世界中四通八达的网络把人们联系在一起。在网络上,天涯变为咫尺,物理上的距离几乎都消弭于无形,人们可以运筹帷幄,决胜于千里之外。然而,网络拥有较为复杂的设备和协议,保证复杂的系统没有缺陷和漏洞是不可能的。同时,网络的地域分布使得安全管理难于顾及网络连接的各个角落,没有人能证明网络是安
期刊
国内领先的电子商务解决方案提供商东大阿尔派公司日前与Oracle公司联合宣布共同组建东大Oracle电子商务虚拟公司(eON e-business Virtual Company),简称为“eON”(注:e代表电子商务,O和N分别是Oracle与Neu-Alpine的开头字母),这预示从即日起,两家公司将共同按动中国电子商务的加速开关,推动中国电子商务的发展,开创中国电子商务的美好未来。  据东大
期刊
面对当今迅猛发展的网络经济,旧有的商业模式面临挑战,亟待建立新的商业合作关系。而对于中国诸多的成功企业乃至全球企业来说,这无疑是他们共同面临的挑战。如何帮助企业应对这种挑战?全球领先的企业管理和电子商务解决方案提供商SAP公司日前在北京举行的“SAP协同商务解决方案中国巡展”上给出了自己的答案,SAP倡导的主题是“协同商务解决方案”,它是以电子商务为商业平台,以地区经济环境为对象,为企业建立适合其
期刊
互联网的发展瞬息万变。为应付不断增加的负载和新的应用需求,领先的运营商正尝试通过架构新的体系结构以适应其业务的增长。Web交换机因此应运而生,为数据中心设备(包括互联网服务器、防火墙、高速缓冲服务器和网关等)提供管理、路由和负载均衡传输。除了由传统第2/3层交换机所提供的连接和封包路由服务外,Web交换机可提供传统局域网交换机和路由器所缺乏的完备的政策,将局部和全球服务器负载均衡、存取控制、服务质
期刊
100ok作为国内第一个垂直型行业电子商务社区,它所从事的B2B模式有着鲜明的特点,而它的运营模式,在国际上也是一种崭新的商业模式。100ok与目前多数平面型商务社区有着极大差异。从内容上看,100ok网站提供的信息全部是产品销售所需要的信息,而对于IT新闻、产品发展趋势涉及很少,可以说,100ok的信息是一个内容垂直化、服务集中化、访问经常化的专业垂直型信息源;从表现形式上看,100ok网站是一
期刊
北京清华紫光顺风信息安全有限公司  银行柜面业务系统一般建立在电信部门提供的公用数据通信网络上,开放的网络环境及开放的网络协议为业务系统互联提供了极大的方便性,同时也降低了业务系统的安全性。对于业务系统面临的这种威胁,银行系统往往采用各种协议的加密机,在公用的数据通信网络中形成一个加密通道。然而,单纯地采用加密机形成加密通道的方法,往往仅起“防外不防内”的效果。  据有关调查显示,在已破获的、采用
期刊
日前,由诺基亚公司发起,中外多家移动、固定运营商共同参与的“中国移动互联网发展策略高层论坛”在北京举行。参加本次论坛的有包括中国移动通信、中国联通、中国网通和中国电信在内的国内四大运营商,和来自日本、芬兰、英国、德国、法国、美国等地的国际领先运营商及独立咨询机构。与会各方就中国移动通信业务的未来,移动互联网的发展趋势以及入关后中国面临的市场挑战和机遇进行了深入的探讨和交流。  随着中国移动用户的飞
期刊