论文部分内容阅读
我们需要重新审视搜索引擎和它们的数据源扮演的角色,沙什·赛斯说。
实时搜索意味着对此时此刻任何地方正在发生的事情进行信息检索。随着移动设备的激增,可用的实时数据的数量正在快速的增长。在雅虎,我们已经开始将Twitter和实时新闻源加入实时搜索结果。但是,实时数据的范围远远超过推文和Facebook数据的更新。比如,用户在Flickr上传照片,晒晒身边发生的事,聊聊最近的新闻,在雅虎知识堂回答问题。这只是那些能用于搜索引擎的实时信息的一个开端。
海量的实时数据对搜索表现出独有的挑战。由于很多这样的数据都是非授权的噪音或者垃圾信息,搜索引擎需要建立一个信任模型,能判断什么数据是重要而有用的。比如,推文转发通常没什么用,而有些数据提供者则比其他人更具有权威。搜索引擎还必须对每个用户在信息的及时性和相关性方面取得平衡。另外,实时数据需要建立索引,并随时更新。几年前,搜索引擎建立索引需要好几个小时。今天,只花几秒钟——不过它们还需要变得更快。
使用实时数据带来了挑战,伴随而来的还有重新审视搜索的可能性,这比较令人欣喜。在早期的网络时代,雅虎建立了一个目录识别权威网站,那时我们看到搜索引擎建立了更令人信任的模型。聚合器的出现,可以使数据源的可信度大大提高。许多其他自组织网络出现在这个新领域也成为可能。
为了加快搜索引擎分享实时数据的速度,当有事情发生时,一些数据源会通知它们的索引,这一点我们可以想象出来。但是,我们不再仅仅等待搜索引擎抓取一家网站,相反,用户可以发布相关的新信息。比如,你正在旧金山繁忙的市区寻找停车位,当有新的空余停车位时,停车场可能会向搜索引擎索引发送更新。
我们已经知道,除了能满足传统的网络搜索需求外,实时搜索还能满足其它的需求。搜索结果可能对长尾型——那些与最热门话题没什么关系——的查询会是无价之宝。实时搜索的潜在用途是无限的。找到并发明新的用途会让搜索在日常生活中变得更具价值。
实时搜索意味着对此时此刻任何地方正在发生的事情进行信息检索。随着移动设备的激增,可用的实时数据的数量正在快速的增长。在雅虎,我们已经开始将Twitter和实时新闻源加入实时搜索结果。但是,实时数据的范围远远超过推文和Facebook数据的更新。比如,用户在Flickr上传照片,晒晒身边发生的事,聊聊最近的新闻,在雅虎知识堂回答问题。这只是那些能用于搜索引擎的实时信息的一个开端。
海量的实时数据对搜索表现出独有的挑战。由于很多这样的数据都是非授权的噪音或者垃圾信息,搜索引擎需要建立一个信任模型,能判断什么数据是重要而有用的。比如,推文转发通常没什么用,而有些数据提供者则比其他人更具有权威。搜索引擎还必须对每个用户在信息的及时性和相关性方面取得平衡。另外,实时数据需要建立索引,并随时更新。几年前,搜索引擎建立索引需要好几个小时。今天,只花几秒钟——不过它们还需要变得更快。
使用实时数据带来了挑战,伴随而来的还有重新审视搜索的可能性,这比较令人欣喜。在早期的网络时代,雅虎建立了一个目录识别权威网站,那时我们看到搜索引擎建立了更令人信任的模型。聚合器的出现,可以使数据源的可信度大大提高。许多其他自组织网络出现在这个新领域也成为可能。
为了加快搜索引擎分享实时数据的速度,当有事情发生时,一些数据源会通知它们的索引,这一点我们可以想象出来。但是,我们不再仅仅等待搜索引擎抓取一家网站,相反,用户可以发布相关的新信息。比如,你正在旧金山繁忙的市区寻找停车位,当有新的空余停车位时,停车场可能会向搜索引擎索引发送更新。
我们已经知道,除了能满足传统的网络搜索需求外,实时搜索还能满足其它的需求。搜索结果可能对长尾型——那些与最热门话题没什么关系——的查询会是无价之宝。实时搜索的潜在用途是无限的。找到并发明新的用途会让搜索在日常生活中变得更具价值。