论文部分内容阅读
据中国互联网络信息中心近日发布的《第19次中国互联网络发展状况统计报告》显示,截止到2006年底,我国网民人数已达到1.37亿,占全国人口总数的10.5%。这一数字标志着互联网发展的高速拐点已经到来,预示着中国互联网将迎来更快速的增长期。可以说,Internet和Web已经改变了人们的学习、生活和工作等各个方面,它们的影响力已渗透到社会的各个层面,而这一切才刚刚开始。面对互联网高速拐点的到来,我们能做什么?
Vannevar Bush在1945年提出的Memex代表了人类长久以来的一个梦想:让每个人都可以十分容易的访问人类积累下来的知识并且十分容易的共享自己的见解。Memex被描述成一个存放了无数本书籍的书桌,这些书籍的内容被超链接互相连接起来,同时其它形式的知识载体,如图片、声音录音等也被放进来。人们可以通过链接在Memex中浏览,也可以通过简单的界面,比如口头的命令来搜索和查询。人们还可以共享自己对书籍阅读的注解。
Web的出现使Memex不再仅仅是一个梦想。万维网(World Wide Web,简记为Web)起源于1989年欧洲粒子物理研究室CERN,最初计划是由CERN的物理学家Tim Berners-Lee于1989年3月提出,在1993年2月,随着第一个图形界面Mosaic的发布而开始迅速发展。据估计每年Web流量增加100%,每天增加大约100万的新网页。到2004年4月,Google声称提供对4,285,199,774个网页提供检索服务,但这还只是Web上已有网页中很小的一部分,Web的核心技术是超文本和超媒体,它通过将文本,图形,图像,音频,视频等信息的有机结合,给人们提供丰富的信息表示空间。同时Web使得信息发布变得前所未有的简单,也让信息浏览十分方便。整个Web相当于一个巨大的知识库,越来越多的文本、书籍被数字化提供在线服务,越来越多的文字以数字化的形式创建和存储。
Web规模的迅速增长和内容的不断丰富,也给人们进行有效访问带来了困难。人们需要Web具有Memex中那样理想的搜索和查询的功能,以帮助自己快速、准确地在信息的海洋中找到自己需要的内容。搜索引擎正是由这样一种需求推动而得到快速发展的信息服务形式。根据统计,约85%的用户使用搜索引擎去定位他们需要的信息,并且,几个著名的通用搜索引擎一直都稳定地处于全球访问量最大的50个网站之列,搜索引擎已经成为了人们进行信息获取的一个基础设施。
搜索引擎的今天
竞争格局基本稳定。自1990年由加拿大的麦吉尔大学(McGillUniversity)学生Alan Emtage、PeterDeutsch、Bill Wheelan发明的Archie(Archie FAQ)开始,网络搜索工具经过十几年的研究和发展,到2006年底,全球搜索引擎市场的规模已达到204亿。其中,Google占据了50%的市场份额,其它就是雅虎和MSN,整个市场呈现高度垄断的竞争态势。从竞争层面来看,Google的领先优势更为明显。而我国的搜索引擎市场,从产业规模上来看,2002年时中国搜索引擎只有2.5亿元的规模,到2006年以年均60%的速度增长,已达到56.6亿,用户规模达到了8300万。其中,百度在中国搜索引擎市场中已经达到了52%的比重,而Google和雅虎相对来说有一定的下降。但是,Google和雅虎的竞争实力依然还是非常强大,未来整个市场的格局还没有一个定数。同时,第二阵营像搜狐和新浪还是有着比较强劲的增长空间,特别是2006年搜狗在积极营销策略的带动下份额有所增长。在搜索引擎这个市场中,新进入者的主要目标则更多的是瞄准新的领域尤其是垂直搜索。
在竞争格局基本稳定的前提下,厂商发展策略差异化主要体现在发展渠道和推广策略方面:百度重点是直销,Google是代理商的模式。这两种模式各有优劣,将来会有所体现、调整或者发展。
新增领域渐成焦点。搜索引擎已经成为网民最重要的在线活动,70%的网民都使用过搜索引擎。尤其值得关注的是企业用户对搜索引擎的认识逐渐在加深,这也促进了搜索引擎盈利模式的创新。但是,随着互联网上的信息越来越多,通用搜索带给人们的搜索体验并不是很好。往往在输入某个关键字后,搜索到的有用信息并不多。这样一来,一些带有目的性的搜索,比如搜索酒店、搜索机票或者找工作方面,就需要依靠一些专业的搜索引擎来完成。而垂直搜索开始大行其道,在很大程度上也正是基于通用搜索这些缺陷的日渐显现。
垂直搜索和通用搜索的不同点主要有:1、产生的背景不同。通用搜索的产生背景是因为互联网上的网页太多,用户无法找到自己想要的网页,而垂直搜索的产生是因为两个原因:第一,用户从通用搜索中想要找到自己想要的某一个特定领域的信息时,需要花费大量的时间。例如,对于求职而言,如果用户在google中输入“java开发”,得到的结果都是讲java开发技巧的,要想看到关于“java开发”的职位,需要不断的翻页;第二,领域性网站数量的日益增多,以招聘来说,现在国内的招聘网站可以说是上千家,而用户想要得到全面的招聘信息,就需要一个网站、一个网站地打开去看,耗时耗力。2、受限领域。垂直搜索一定是针对用户在某一个方面的需求,专门搜索该方面的内容,例如:房地产搜索、汽车搜索、招聘搜索等。3、定向信息采集。垂直搜索所用的信息采集器是针对某一主题的站点列表进行抓取。4、信息抽取。垂直搜索中一项很关键技术就是信息抽取(IE:Infor-mation Extraction),呈现给用户的是经过抽取整理后的内容,而不是一个简单的摘要加上网页链接。5、排序技术。假如一个关键词的网页有10万个,那到底哪个该排在第一个?通用搜索引擎通常都是分析一个网页中链接了多少个其它的网页,加上其它网页链接到这个网页有多少个,再加上更新时间,然后做一个数学运算得到最后的排序权值。而现在所有的垂直搜索都是采用了按相关性和时间交叉排序的方法。此外,在结果页面呈现方式、核心技术以及索引结构等方面,通用搜索与垂直搜索均有不同程度的差异。搜索引擎的明天
曾被喻为创新机器的Google,连同盛极一时的Google神话,正在全球范围内经历一个不可逆转的去魅过程。面对诸多创意迭出的第三代搜索引擎的出现,人们不禁要问:Google还在创新吗?
第二代搜索的软肋。作为Google排名运算法则的核心,PageRank算法假定:某个网页被链接得越多,则该网 页的等级和重要性就越大,从而在相关性排序中也就越靠前。PageRank的等级以PR值计算,PR值越高说明该网页越重要。虽然Google的排名算法实际上要远为复杂,比如还揉合了Title标识、Keywords标识等上百个参数和变量,但囿于关键词搜索本身的局限,Google并没有在搜索结果的相关性等指标上与其竞争对手拉开距离。
大体而言,第二代搜索的局限见于如下四个方面:其一,提供的提问函数相当有限;其二,仅支持单个关键词或者一组关键词及逻辑运算符组成提问,而并不支持自然语言搜索或语义搜索,所以关键词与搜索结果之间的匹配很难做到精准,往往是搜到哪儿算哪儿;其三,不能利用历史信息进行搜索。用户的每次搜索都是从头开始,而不能从原有的查询结果中作进一步选择;其四,呈现方式单一、呆板。多数搜索引擎只返回一个长长的搜索结果列表,其中可能有数以万计的包含关键词的网页,但这些网页是否以及在多大程度上与用户的搜索意图相关,则不得而知。
事实上,第二代搜索引擎所具有的局限性,也困扰着Google这样的搜索巨头。
浮现中的第三代搜索。作为对第二代搜索的一种超越,第三代搜索的范式革命不光见于呈现方式,而是表现为参差多态的演化路径,例如个性化搜索、社会化搜索、本地化搜索、知识问答社区、社区内容搜索等等。而在核心搜索技术上,则大致包含人工智能、模式识别、语义分析、神经网络等发展方向。由于神经网络搜索和人工智能搜索耗资巨大,目前还没有出现成型的搜索引擎,不过,包括Google、微软、IBM、Roussinov等在内的搜索引擎,均已将人工智能搜索的研发提上了议事日程。在国内,Aisou等公司也跃跃欲试,随时准备推出人工智能搜索产品。
值得一提的是,Autonomy的模式识别技术本身也包含有语义分析技术和部分人工智能技术。虽然迄今为止,计算机还无法做到完全理解语言,但通过采用基于统计学、概率论和信息论的概念识别技术,Autonomy可以理解信息的意义和信息间的连接。用户搜索时可以直接以自然语言输入一句话或一段文字,甚至一篇文章,Au-tonomy会自动判断用户查询条件所描述的概念,从企业文档库中查找所有和用户搜索概念相关的文档。显然,语义搜索比传统关键词搜索更能精准定位用户的搜索意图。
由于是基于对概念和概念之间关系的理解,Autonomy还可以利用精选内容中完整的上下文,实现概念提炼或基于例子的提炼,进而聚焦用户所感兴趣的概念结果,并提供自动建立档案、社区及协作、信息自动推送等个性化搜索功能。不光如此,该系统还可以自动判别使用者的身份,并通过不断学习更新系统的知识库。
瞄准当前互联网前沿技术和未来发展趋势,由北京市计算中心开发的垂直搜索服务器ContentSmart集软硬件为一身,将信息智能采集、快速中文实时检索、信息智能分选、WEB发布、远程后台管理等功能有效地结合在一起,开始在电子商务、电子政务、情报搜集整理、竞争情报分析、门户网站建设的领域应用,正在产生良好的经济效益和社会效益。
关于第三代搜索,众多的创新者已经为我们勾勒出一个美好而粗犷的轮廓,我们可以预言并且相信的是,浮现中第三代搜索引擎今后的进化之旅,还会有很多很多超出我们今天的想象。
(本文由北京市科学技术研究院北京市计算中心提供)
Vannevar Bush在1945年提出的Memex代表了人类长久以来的一个梦想:让每个人都可以十分容易的访问人类积累下来的知识并且十分容易的共享自己的见解。Memex被描述成一个存放了无数本书籍的书桌,这些书籍的内容被超链接互相连接起来,同时其它形式的知识载体,如图片、声音录音等也被放进来。人们可以通过链接在Memex中浏览,也可以通过简单的界面,比如口头的命令来搜索和查询。人们还可以共享自己对书籍阅读的注解。
Web的出现使Memex不再仅仅是一个梦想。万维网(World Wide Web,简记为Web)起源于1989年欧洲粒子物理研究室CERN,最初计划是由CERN的物理学家Tim Berners-Lee于1989年3月提出,在1993年2月,随着第一个图形界面Mosaic的发布而开始迅速发展。据估计每年Web流量增加100%,每天增加大约100万的新网页。到2004年4月,Google声称提供对4,285,199,774个网页提供检索服务,但这还只是Web上已有网页中很小的一部分,Web的核心技术是超文本和超媒体,它通过将文本,图形,图像,音频,视频等信息的有机结合,给人们提供丰富的信息表示空间。同时Web使得信息发布变得前所未有的简单,也让信息浏览十分方便。整个Web相当于一个巨大的知识库,越来越多的文本、书籍被数字化提供在线服务,越来越多的文字以数字化的形式创建和存储。
Web规模的迅速增长和内容的不断丰富,也给人们进行有效访问带来了困难。人们需要Web具有Memex中那样理想的搜索和查询的功能,以帮助自己快速、准确地在信息的海洋中找到自己需要的内容。搜索引擎正是由这样一种需求推动而得到快速发展的信息服务形式。根据统计,约85%的用户使用搜索引擎去定位他们需要的信息,并且,几个著名的通用搜索引擎一直都稳定地处于全球访问量最大的50个网站之列,搜索引擎已经成为了人们进行信息获取的一个基础设施。
搜索引擎的今天
竞争格局基本稳定。自1990年由加拿大的麦吉尔大学(McGillUniversity)学生Alan Emtage、PeterDeutsch、Bill Wheelan发明的Archie(Archie FAQ)开始,网络搜索工具经过十几年的研究和发展,到2006年底,全球搜索引擎市场的规模已达到204亿。其中,Google占据了50%的市场份额,其它就是雅虎和MSN,整个市场呈现高度垄断的竞争态势。从竞争层面来看,Google的领先优势更为明显。而我国的搜索引擎市场,从产业规模上来看,2002年时中国搜索引擎只有2.5亿元的规模,到2006年以年均60%的速度增长,已达到56.6亿,用户规模达到了8300万。其中,百度在中国搜索引擎市场中已经达到了52%的比重,而Google和雅虎相对来说有一定的下降。但是,Google和雅虎的竞争实力依然还是非常强大,未来整个市场的格局还没有一个定数。同时,第二阵营像搜狐和新浪还是有着比较强劲的增长空间,特别是2006年搜狗在积极营销策略的带动下份额有所增长。在搜索引擎这个市场中,新进入者的主要目标则更多的是瞄准新的领域尤其是垂直搜索。
在竞争格局基本稳定的前提下,厂商发展策略差异化主要体现在发展渠道和推广策略方面:百度重点是直销,Google是代理商的模式。这两种模式各有优劣,将来会有所体现、调整或者发展。
新增领域渐成焦点。搜索引擎已经成为网民最重要的在线活动,70%的网民都使用过搜索引擎。尤其值得关注的是企业用户对搜索引擎的认识逐渐在加深,这也促进了搜索引擎盈利模式的创新。但是,随着互联网上的信息越来越多,通用搜索带给人们的搜索体验并不是很好。往往在输入某个关键字后,搜索到的有用信息并不多。这样一来,一些带有目的性的搜索,比如搜索酒店、搜索机票或者找工作方面,就需要依靠一些专业的搜索引擎来完成。而垂直搜索开始大行其道,在很大程度上也正是基于通用搜索这些缺陷的日渐显现。
垂直搜索和通用搜索的不同点主要有:1、产生的背景不同。通用搜索的产生背景是因为互联网上的网页太多,用户无法找到自己想要的网页,而垂直搜索的产生是因为两个原因:第一,用户从通用搜索中想要找到自己想要的某一个特定领域的信息时,需要花费大量的时间。例如,对于求职而言,如果用户在google中输入“java开发”,得到的结果都是讲java开发技巧的,要想看到关于“java开发”的职位,需要不断的翻页;第二,领域性网站数量的日益增多,以招聘来说,现在国内的招聘网站可以说是上千家,而用户想要得到全面的招聘信息,就需要一个网站、一个网站地打开去看,耗时耗力。2、受限领域。垂直搜索一定是针对用户在某一个方面的需求,专门搜索该方面的内容,例如:房地产搜索、汽车搜索、招聘搜索等。3、定向信息采集。垂直搜索所用的信息采集器是针对某一主题的站点列表进行抓取。4、信息抽取。垂直搜索中一项很关键技术就是信息抽取(IE:Infor-mation Extraction),呈现给用户的是经过抽取整理后的内容,而不是一个简单的摘要加上网页链接。5、排序技术。假如一个关键词的网页有10万个,那到底哪个该排在第一个?通用搜索引擎通常都是分析一个网页中链接了多少个其它的网页,加上其它网页链接到这个网页有多少个,再加上更新时间,然后做一个数学运算得到最后的排序权值。而现在所有的垂直搜索都是采用了按相关性和时间交叉排序的方法。此外,在结果页面呈现方式、核心技术以及索引结构等方面,通用搜索与垂直搜索均有不同程度的差异。搜索引擎的明天
曾被喻为创新机器的Google,连同盛极一时的Google神话,正在全球范围内经历一个不可逆转的去魅过程。面对诸多创意迭出的第三代搜索引擎的出现,人们不禁要问:Google还在创新吗?
第二代搜索的软肋。作为Google排名运算法则的核心,PageRank算法假定:某个网页被链接得越多,则该网 页的等级和重要性就越大,从而在相关性排序中也就越靠前。PageRank的等级以PR值计算,PR值越高说明该网页越重要。虽然Google的排名算法实际上要远为复杂,比如还揉合了Title标识、Keywords标识等上百个参数和变量,但囿于关键词搜索本身的局限,Google并没有在搜索结果的相关性等指标上与其竞争对手拉开距离。
大体而言,第二代搜索的局限见于如下四个方面:其一,提供的提问函数相当有限;其二,仅支持单个关键词或者一组关键词及逻辑运算符组成提问,而并不支持自然语言搜索或语义搜索,所以关键词与搜索结果之间的匹配很难做到精准,往往是搜到哪儿算哪儿;其三,不能利用历史信息进行搜索。用户的每次搜索都是从头开始,而不能从原有的查询结果中作进一步选择;其四,呈现方式单一、呆板。多数搜索引擎只返回一个长长的搜索结果列表,其中可能有数以万计的包含关键词的网页,但这些网页是否以及在多大程度上与用户的搜索意图相关,则不得而知。
事实上,第二代搜索引擎所具有的局限性,也困扰着Google这样的搜索巨头。
浮现中的第三代搜索。作为对第二代搜索的一种超越,第三代搜索的范式革命不光见于呈现方式,而是表现为参差多态的演化路径,例如个性化搜索、社会化搜索、本地化搜索、知识问答社区、社区内容搜索等等。而在核心搜索技术上,则大致包含人工智能、模式识别、语义分析、神经网络等发展方向。由于神经网络搜索和人工智能搜索耗资巨大,目前还没有出现成型的搜索引擎,不过,包括Google、微软、IBM、Roussinov等在内的搜索引擎,均已将人工智能搜索的研发提上了议事日程。在国内,Aisou等公司也跃跃欲试,随时准备推出人工智能搜索产品。
值得一提的是,Autonomy的模式识别技术本身也包含有语义分析技术和部分人工智能技术。虽然迄今为止,计算机还无法做到完全理解语言,但通过采用基于统计学、概率论和信息论的概念识别技术,Autonomy可以理解信息的意义和信息间的连接。用户搜索时可以直接以自然语言输入一句话或一段文字,甚至一篇文章,Au-tonomy会自动判断用户查询条件所描述的概念,从企业文档库中查找所有和用户搜索概念相关的文档。显然,语义搜索比传统关键词搜索更能精准定位用户的搜索意图。
由于是基于对概念和概念之间关系的理解,Autonomy还可以利用精选内容中完整的上下文,实现概念提炼或基于例子的提炼,进而聚焦用户所感兴趣的概念结果,并提供自动建立档案、社区及协作、信息自动推送等个性化搜索功能。不光如此,该系统还可以自动判别使用者的身份,并通过不断学习更新系统的知识库。
瞄准当前互联网前沿技术和未来发展趋势,由北京市计算中心开发的垂直搜索服务器ContentSmart集软硬件为一身,将信息智能采集、快速中文实时检索、信息智能分选、WEB发布、远程后台管理等功能有效地结合在一起,开始在电子商务、电子政务、情报搜集整理、竞争情报分析、门户网站建设的领域应用,正在产生良好的经济效益和社会效益。
关于第三代搜索,众多的创新者已经为我们勾勒出一个美好而粗犷的轮廓,我们可以预言并且相信的是,浮现中第三代搜索引擎今后的进化之旅,还会有很多很多超出我们今天的想象。
(本文由北京市科学技术研究院北京市计算中心提供)