论文部分内容阅读
本文作者简介
网名醒客(Thinker),资深软件架构师,关注技术和产业发展战略。
搜索引擎是当前互联网热门话题,从业者以搜索为谈资犹如90年代言必称dot com。
网络始于搜索
互联网初期,信息量比较少,人们对索引式互联网服务的需要并不强烈。
随着信息的多元化,人们需要对建立秩序,避免淹没在海量信息之中。20世纪90年代,雅虎开始提供分类为特点的信息索引服务,这是第一次建立互联网信息秩序的,随着信息量的快速增长,基于人工分类的信息索引服务逐渐难以满足用户的需要。
Google为代表的搜索引擎,代替雅虎为代表分类信息索引,成为互联网秩序新的提供者,这是搜索引擎流行的深层驱动力。通过搜索引擎,用户得到与关键词匹配的信息,与分类相比,具有更大的方便性和灵活性,而且信息是服务器从各个网站自动抓过来的(蜘蛛或者机器人),效率比人工要高很多,在海量的互联网信息中,搜索引擎成为导航者。
Google的烦恼
看上去都是搜索,对于人们的不同应用却有着不同的要求,当要检索某个作者在互联网上有多少引用量(也就是出现的频率)时,你希望搜索引擎能够提供覆盖互联网尽可能多的数量,而对结果的具体内容,并不关心;当要检索某个公开活动的日程时,你希望能够直接查询到举办方的日程表页面,而不关心其他网站的引用信息;当要检索某一项技术的资料或者方案时,你希望能按照质量好的方案能够排在前面供你选择。
不久前,Google等搜索引擎公司开始提供本地信息搜索,表面看上去,本地搜索就是把搜索引擎的检索范围从互联网延伸到本地计算机,而实际上,这两种搜索有着很大的区别,本地搜索更多是你已知(或者应该知道)的搜索,网络搜索更多是对未知的搜索。
所有不同需要的查询,现在都由通用型的搜索引擎来满足,一个文本输入框,一个搜索按钮,Google的搜索界面成了搜索引擎服务的标板。
随着网络服务的深入,通用型搜索引擎已不能良好地服务用户,一方面是搜索引擎热潮,另一方面,搜索引擎却越来越不适应互联网信息检索的需要,Google、百度等提供的数以万计的查询结果,看上去很好,想找到合适的结果,却比较难,由搜索引擎提供的信息秩序,并不能满足互联网发展的要求,只是目前,还没有更好的方式。
垂直搜索时代
4月15日参加新浪IT沙龙项目秀的时候,笔者看到“搜what”网站提供了一种基于黄页、航班查询、祝福语、歌曲、绿色食品等查询服务。
这通常被人们称作垂直搜索,搜what提供的是垂直搜索的技术引擎。与通用搜索相比,垂直搜索限制了搜索范围,不过,并不是所有的垂直范围加在一起就等同于通用搜索。
传统的基于文本比对的搜索,正在进一步深入发展,整体上说,涉及如下几大方面:
搜索对象的变化,松散文本到数据结构化。举个例子说,假如你正在查询航班,你输入“上海”的时候,结果不会是“说上海话”中的“上海”,系统知道寻找地址而不是其他,这时候,航班信息中的地址信息(如:上海)转移到别的地方将不再具有相同的含义,这是数据结构化,其含义不仅由文本,而且与所处位置相关。
搜索方法的变化,从文本比较到含义(语义)检索。搜索不再是简单的文本比对,而是基于文本真实含义的理解,例如:通常检索“牛”的时候,天牛的“牛”还是蜗牛的“牛”,都是潜在的匹配目标,这是根据文本信息比对的结果,如果引入“牛”含义,那么“蜗牛”就会排斥在外,同时,有“最重要的农耕动物”意思而不包含“牛”的内容也将是待选目标。
搜索以人为本
在互联网传媒时期,传播的是公众信息,这些信息与具体人的关联性不大,比如:本届奥运会的赛程,谁是国家足球队教练。还包括公共的知识体系,比如:牛顿定律,互联网的TCP/IP协议。
越来越多的非公众信息与公共知识体系的内容出现在互联网上。昨天晚上饭店的订餐单,前天下午去浦东机场的保险单号码,一个新开张的互联网公司开发的一套公司软件协议,这些信息如果不和具体人相关,无法想象我们将怎么淹没在信息的海洋中,鼓吹搜索结果一万甚至一百万显然是个黑色幽默。
与其说搜索垂直化,还不如说搜索的纵深化,当前,机器智能的发展离人们使用目标有比较大的差距,如果通用的角度提供纵深化搜索服务,技术近期内还不能很好地实现上面的转变。
垂直搜索比通用搜索更深入,非常依赖对相关行业的知识分析,也就是说,只有对一个行业的资料内容做过大量的分析才能做到有效搜索,而这种分析如果不借助人,将会是很复杂的一个过程,因此,垂直搜索通常将范围限制在一个具体场景中,以降低技术实现的难度。
搜索未来到底沿着什么样的方向,非常的不确定,确定的是,搜索的未来在于越来越精确。
网名醒客(Thinker),资深软件架构师,关注技术和产业发展战略。
搜索引擎是当前互联网热门话题,从业者以搜索为谈资犹如90年代言必称dot com。
网络始于搜索
互联网初期,信息量比较少,人们对索引式互联网服务的需要并不强烈。
随着信息的多元化,人们需要对建立秩序,避免淹没在海量信息之中。20世纪90年代,雅虎开始提供分类为特点的信息索引服务,这是第一次建立互联网信息秩序的,随着信息量的快速增长,基于人工分类的信息索引服务逐渐难以满足用户的需要。
Google为代表的搜索引擎,代替雅虎为代表分类信息索引,成为互联网秩序新的提供者,这是搜索引擎流行的深层驱动力。通过搜索引擎,用户得到与关键词匹配的信息,与分类相比,具有更大的方便性和灵活性,而且信息是服务器从各个网站自动抓过来的(蜘蛛或者机器人),效率比人工要高很多,在海量的互联网信息中,搜索引擎成为导航者。
Google的烦恼
看上去都是搜索,对于人们的不同应用却有着不同的要求,当要检索某个作者在互联网上有多少引用量(也就是出现的频率)时,你希望搜索引擎能够提供覆盖互联网尽可能多的数量,而对结果的具体内容,并不关心;当要检索某个公开活动的日程时,你希望能够直接查询到举办方的日程表页面,而不关心其他网站的引用信息;当要检索某一项技术的资料或者方案时,你希望能按照质量好的方案能够排在前面供你选择。
不久前,Google等搜索引擎公司开始提供本地信息搜索,表面看上去,本地搜索就是把搜索引擎的检索范围从互联网延伸到本地计算机,而实际上,这两种搜索有着很大的区别,本地搜索更多是你已知(或者应该知道)的搜索,网络搜索更多是对未知的搜索。
所有不同需要的查询,现在都由通用型的搜索引擎来满足,一个文本输入框,一个搜索按钮,Google的搜索界面成了搜索引擎服务的标板。
随着网络服务的深入,通用型搜索引擎已不能良好地服务用户,一方面是搜索引擎热潮,另一方面,搜索引擎却越来越不适应互联网信息检索的需要,Google、百度等提供的数以万计的查询结果,看上去很好,想找到合适的结果,却比较难,由搜索引擎提供的信息秩序,并不能满足互联网发展的要求,只是目前,还没有更好的方式。
垂直搜索时代
4月15日参加新浪IT沙龙项目秀的时候,笔者看到“搜what”网站提供了一种基于黄页、航班查询、祝福语、歌曲、绿色食品等查询服务。
这通常被人们称作垂直搜索,搜what提供的是垂直搜索的技术引擎。与通用搜索相比,垂直搜索限制了搜索范围,不过,并不是所有的垂直范围加在一起就等同于通用搜索。
传统的基于文本比对的搜索,正在进一步深入发展,整体上说,涉及如下几大方面:
搜索对象的变化,松散文本到数据结构化。举个例子说,假如你正在查询航班,你输入“上海”的时候,结果不会是“说上海话”中的“上海”,系统知道寻找地址而不是其他,这时候,航班信息中的地址信息(如:上海)转移到别的地方将不再具有相同的含义,这是数据结构化,其含义不仅由文本,而且与所处位置相关。
搜索方法的变化,从文本比较到含义(语义)检索。搜索不再是简单的文本比对,而是基于文本真实含义的理解,例如:通常检索“牛”的时候,天牛的“牛”还是蜗牛的“牛”,都是潜在的匹配目标,这是根据文本信息比对的结果,如果引入“牛”含义,那么“蜗牛”就会排斥在外,同时,有“最重要的农耕动物”意思而不包含“牛”的内容也将是待选目标。
搜索以人为本
在互联网传媒时期,传播的是公众信息,这些信息与具体人的关联性不大,比如:本届奥运会的赛程,谁是国家足球队教练。还包括公共的知识体系,比如:牛顿定律,互联网的TCP/IP协议。
越来越多的非公众信息与公共知识体系的内容出现在互联网上。昨天晚上饭店的订餐单,前天下午去浦东机场的保险单号码,一个新开张的互联网公司开发的一套公司软件协议,这些信息如果不和具体人相关,无法想象我们将怎么淹没在信息的海洋中,鼓吹搜索结果一万甚至一百万显然是个黑色幽默。
与其说搜索垂直化,还不如说搜索的纵深化,当前,机器智能的发展离人们使用目标有比较大的差距,如果通用的角度提供纵深化搜索服务,技术近期内还不能很好地实现上面的转变。
垂直搜索比通用搜索更深入,非常依赖对相关行业的知识分析,也就是说,只有对一个行业的资料内容做过大量的分析才能做到有效搜索,而这种分析如果不借助人,将会是很复杂的一个过程,因此,垂直搜索通常将范围限制在一个具体场景中,以降低技术实现的难度。
搜索未来到底沿着什么样的方向,非常的不确定,确定的是,搜索的未来在于越来越精确。