论文部分内容阅读
在IT领域,在学术和职业生涯两方面都有突出成绩的人中,雅虎研究院资深研究员及副总裁Andrei Broder无疑是最有代表性的人物之一。他曾以《Syntactic Clustering of the Web》等两篇论文分别获得WWW6和WWW9的最佳论文奖,并创建了“计算广告学”这一新兴的交叉学科。
2009年11月13日,在北京清华大学举行的雅虎Big Thinkers Day上,Andrei Broder受邀做了关于“计算广告学”的演讲。同一天,他接受了记者的独家专访。
让广告被量化
计算广告学是一个新兴的领域。实际上,在互联网出现之后,广告与计算就产生了密不可分的联系。在清华大学的演讲中,Andrei介绍,计算广告学所要应对的最大困难和要解决的最大问题是,如何在指定用户、指定主题和适合的广告中找到最匹配的结果。
广告的力量是巨大的。Andrei介绍,雅虎曾对电器商店做了一个调查,把用户分为事先看过关于这一产品和厂家介绍的人群和从来没有看过互联网广告的人群,并追踪调查他们的购买行为。调查发现,即使在三个月之后,看过广告的这组人群仍然对这款产品有着更强的购买意愿。然而,最终的广告效果是难以量化的。“在广告领域有一个非常有趣的问题。比如,一个用户首先看到了一则索尼电视的互联网广告,在后来的应用过程中,他又看到了一条有关销售索尼产品的文本类的信息,这条信息促使他回过头来点击了互联网上的这则广告,进入商家购买了这款产品。究竟是因为这个客户最初的搜索,还是因为他看到纸面上的信息最终促成销售?谁应该得到这份功劳?现在很难做一个具体估计。”
Andrei在清华大学的演讲中讲到了如何对文本广告、Banner等不同广告形式当成一种信息,并对其实现的效果进行计算,并指出,寻找“最佳匹配”问题的核心是对过于繁多的信息进行检索和选择。
因此,雅虎也在努力提供一套对广告效果进行分析的工具。雅虎的Advertiser Analytics就是这样一套工具,它可以根据收集到的数据对广告的效果进行分析和调查。
除此之外,雅虎还试图将传统的用户提交关键词之后得到信息的“Pull”模式改变为信息根据用户的需求自动给出的“Push”模式,以实现更好的用户体验。
从Pull到Push
Andrei在写于七年之前的一篇早期论文《A taxonomy of web search》中,谈到了网页搜索的三个阶段:对传统信息检索模式的扩展,关于元数据的结构判别,以及当时正在发展的基于文本语义和分析的阶段。而他认为现在应当进入第四阶段,也即信息提供的搜索引擎时代。实际上,对语义的研究离真正的实际应用还差的很远。“更好的帮助用户”是雅虎目前最关注的。“雅虎相信凭借我们对互联网的理解,深知怎样将其中有用的数据和相关的信息提取出来,从而更好地服务用户。”Andrei介绍,雅虎正在研究如何在用户输入查询词的过程中,利用技术手段进行分析,并主动提供一些内容给用户,让用户不需要输入完整的查询词,就可以获得想获得的信息。
不过,在收集用户习惯信息这一过程中,用户最担心自己的隐私被泄漏。对此,Andrei表示,“虽然互联网不会忘记,但雅虎会忘记。”他介绍,一方面雅虎提供了让用户自主选择是否由雅虎记录相关信息的机制,另一方面,雅虎仅仅保留互联网用户90天以内的信息,这样用户就不会担心今天的一次失态会在几十年之后身居高位时再被人搜索到。
另外,雅虎还试图在查询到的信息中最大化用户的收获。例如,在用户查询一家餐馆的时候,并非只是为用户提供餐馆的电话号码,而是通过深层次的分析,将用户的回馈和评价提供给查询者。这又牵涉到雅虎的另一项研究:情感分析。
别对我撒谎
互联网上的评价可信么?正在热播的一部美剧《Lie to Me》中,主人公认为谎言无处不在。同样,人们在互联网上评价的时候,各种情绪也会导致他们的表达失真。愤怒,失望,还是非常满意?互联网上的评论背后隐藏着用户当时的情感因素在内。雅虎希望做到的是,通过字面上的文本信息,通过一定的技术手段进行分析,来探寻用户的回答后面隐藏着的感情。
情感分析说起来容易,但实施起来非常困难。“看似很简单的一个分析背后,隐藏了很深奥的技术,像信息检索、优化、自然语言处理等,还有一些统计方法。”谈到这里,Andrei笑着表示,正因如此,吸引更多的人才就成为他现在最希望做到的事情。
实际上,雅虎开展Big Thinkers Day这一高校之间的学术交流和探讨活动,部分也是希望招揽更多的人才。另外,雅虎之所以设立雅虎北京研发中心,也是看重了北京的高端人才。雅虎北京研发中心是雅虎全球三大研发中心之一,对云计算、广告和沟通等事关雅虎未来发展的项目都有涉及,也是雅虎全球布局的关键一子。
2009年11月13日,在北京清华大学举行的雅虎Big Thinkers Day上,Andrei Broder受邀做了关于“计算广告学”的演讲。同一天,他接受了记者的独家专访。
让广告被量化
计算广告学是一个新兴的领域。实际上,在互联网出现之后,广告与计算就产生了密不可分的联系。在清华大学的演讲中,Andrei介绍,计算广告学所要应对的最大困难和要解决的最大问题是,如何在指定用户、指定主题和适合的广告中找到最匹配的结果。
广告的力量是巨大的。Andrei介绍,雅虎曾对电器商店做了一个调查,把用户分为事先看过关于这一产品和厂家介绍的人群和从来没有看过互联网广告的人群,并追踪调查他们的购买行为。调查发现,即使在三个月之后,看过广告的这组人群仍然对这款产品有着更强的购买意愿。然而,最终的广告效果是难以量化的。“在广告领域有一个非常有趣的问题。比如,一个用户首先看到了一则索尼电视的互联网广告,在后来的应用过程中,他又看到了一条有关销售索尼产品的文本类的信息,这条信息促使他回过头来点击了互联网上的这则广告,进入商家购买了这款产品。究竟是因为这个客户最初的搜索,还是因为他看到纸面上的信息最终促成销售?谁应该得到这份功劳?现在很难做一个具体估计。”
Andrei在清华大学的演讲中讲到了如何对文本广告、Banner等不同广告形式当成一种信息,并对其实现的效果进行计算,并指出,寻找“最佳匹配”问题的核心是对过于繁多的信息进行检索和选择。
因此,雅虎也在努力提供一套对广告效果进行分析的工具。雅虎的Advertiser Analytics就是这样一套工具,它可以根据收集到的数据对广告的效果进行分析和调查。
除此之外,雅虎还试图将传统的用户提交关键词之后得到信息的“Pull”模式改变为信息根据用户的需求自动给出的“Push”模式,以实现更好的用户体验。
从Pull到Push
Andrei在写于七年之前的一篇早期论文《A taxonomy of web search》中,谈到了网页搜索的三个阶段:对传统信息检索模式的扩展,关于元数据的结构判别,以及当时正在发展的基于文本语义和分析的阶段。而他认为现在应当进入第四阶段,也即信息提供的搜索引擎时代。实际上,对语义的研究离真正的实际应用还差的很远。“更好的帮助用户”是雅虎目前最关注的。“雅虎相信凭借我们对互联网的理解,深知怎样将其中有用的数据和相关的信息提取出来,从而更好地服务用户。”Andrei介绍,雅虎正在研究如何在用户输入查询词的过程中,利用技术手段进行分析,并主动提供一些内容给用户,让用户不需要输入完整的查询词,就可以获得想获得的信息。
不过,在收集用户习惯信息这一过程中,用户最担心自己的隐私被泄漏。对此,Andrei表示,“虽然互联网不会忘记,但雅虎会忘记。”他介绍,一方面雅虎提供了让用户自主选择是否由雅虎记录相关信息的机制,另一方面,雅虎仅仅保留互联网用户90天以内的信息,这样用户就不会担心今天的一次失态会在几十年之后身居高位时再被人搜索到。
另外,雅虎还试图在查询到的信息中最大化用户的收获。例如,在用户查询一家餐馆的时候,并非只是为用户提供餐馆的电话号码,而是通过深层次的分析,将用户的回馈和评价提供给查询者。这又牵涉到雅虎的另一项研究:情感分析。
别对我撒谎
互联网上的评价可信么?正在热播的一部美剧《Lie to Me》中,主人公认为谎言无处不在。同样,人们在互联网上评价的时候,各种情绪也会导致他们的表达失真。愤怒,失望,还是非常满意?互联网上的评论背后隐藏着用户当时的情感因素在内。雅虎希望做到的是,通过字面上的文本信息,通过一定的技术手段进行分析,来探寻用户的回答后面隐藏着的感情。
情感分析说起来容易,但实施起来非常困难。“看似很简单的一个分析背后,隐藏了很深奥的技术,像信息检索、优化、自然语言处理等,还有一些统计方法。”谈到这里,Andrei笑着表示,正因如此,吸引更多的人才就成为他现在最希望做到的事情。
实际上,雅虎开展Big Thinkers Day这一高校之间的学术交流和探讨活动,部分也是希望招揽更多的人才。另外,雅虎之所以设立雅虎北京研发中心,也是看重了北京的高端人才。雅虎北京研发中心是雅虎全球三大研发中心之一,对云计算、广告和沟通等事关雅虎未来发展的项目都有涉及,也是雅虎全球布局的关键一子。