论文部分内容阅读
赵世奇,毕业于哈尔滨工业大学计算机科学与技术学院,是百度博士后工作站成立以来的第一名博士后,到2010年年底,赵世奇已经在百度工作了一整年。
话不多,这是赵世奇给人的第一印象,他的自我介绍也颇为简单:“我在百度工作,研究语义搜索。”
但是话匣子一旦打开,就会发现赵世奇并非一个只钻技术的狂人,他思维敏捷,爱好广泛,对生活抱以随性的平实态度。
“与技术保持距离。”这是赵世奇的研究态度,对他而言,技术的极致与否要从用户的需求出发,如果埋头技术不问需求,反而会走进一个技术“怪圈”。
歪打正着
计算机语言学。2003年,大三刚一结束,赵世奇得知已被保送研究生,在大四就要开始实验室生涯,但这门学科是赵世奇鲜有听闻,从未接触过的领域。
自然语言处理技术的发展,得益于搜索引擎的发展,而在当时,搜索引擎方兴未艾,自然语言处理完全是个大冷门,眼看同学们都在网络安全与数据库的研究范畴里拼抢,赵世奇想到了退出。
为此,学科带头人多次找到赵世奇,将这一交叉学科的兴趣点罗列出来。“计算机科学、语言学、数学融合在一起,少了单一学科的枯燥,领域更为宽广。”
“那就读吧。”在赵世奇的回忆中,他其实不是一个目标清晰的人,更多的是随遇而安,这样的心态反而让他不必左顾右盼而专心于这一领域。“这就是一个阴差阳错的安排,我没想到我能做好。慢慢的,一年后,我有了些感觉。”
在日后的研究中,赵世奇从一名“小白”逐渐找到了自己的方式。真正挑动起赵世奇积极性的是每次做出的小系统和程序,能够进一步理解人类语言,这样的成就感在一点一滴的积累中,推动赵世奇不断向前。
3年后,赵世奇被保送攻读博士学位。
赵世奇一直保持了“随遇而安”的心态。在同学都为着出国深造削尖脑袋考托福时,赵世奇慢了半拍。最终让赵世奇放弃出国念头的还是在于他内心对“研究”的看法,如果出国,他将学习另一种研究思路和范式,但如果能在荷枪实弹的实际环境中磨练,将研究用于实用,会更有价值,赵世奇选择了后者。
转换思路
也正是抱着“实干”的态度,在攻读完博士后,赵世奇进入百度,这和他所想要的荷枪实弹恰好呼应,他看中了百度广阔的发展平台。“首先,百度搜索引擎很倚重自然语言处理技术,这与我的博士课题方向非常一致;其次,百度是一个非常大且非常有活力的平台,在这样的企业中工作,自己的成长也会更快。”
赵世奇所在的自然语言处理团队,是百度最核心的技术团队之一,其成员全部由顶尖学者和工程师组成,规模已达60余人。百度为这些“赵世奇们”从事的前沿技术探索提供了庞大用户数据库资源和强有力的技术支持:从用户量上看,百度已覆盖95%以上的中国网民,拥有超过两亿注册用户;从技术投入上看,百度拥有3000多名全球顶级的搜索技术工程师,技术研发和产品投入更是超过了公司年度营收的1/3。
“单独做研究可以天马行空,有趣、离奇、新颖或者前瞻。”赵世奇刚进入百度,就发现在企业做科研与在院校的研究院有根本区别,将研究成果转化为实际的产品才是最难的。
在百度,对技术研发方向的确认必须经过“层层把关”。经过公司的内部考量,与现有产品的嫁接,以及用户的考验后,此项研究开发才能被确认其价值。赵世奇时常提醒自己,在理论研究和应用实践中找到平衡点。
“当我们考虑问题的时候,我们常常回到原点,返回用户搜索行为的源头去思考,如何让搜索引擎读懂用户想说什么、想找什么。”赵世奇在百度的一年时间里,理解到技术层面的更新不是最重要的,更重要的是一名技术人员思维方式的转变。
让机器读懂人的思想
“我不是一个技术狂人,也不痴迷于技术。”这是赵世奇的科研态度。在大学做研究时,他并不爱时常泡实验室,在百度工作,加班也不是他的风格。“对技术保持若即若离,更有利于研发。”
对于赵世奇而言,让机器读懂人的思想,是他的追求。
“当我们看到用户的查询时,就在想能不能去反推或者猜测他脑子里的问题到底是什么?从研究者的角度来讲,这也是很有趣的问题。”而对于资源的精细加工,赵世奇觉得当前搜索引擎对于互联网资源的利用还不够深入,未来将会把信息抽取和数据挖掘技术更多地应用进来,使得用户检索的对象不再是网页,而是网页中的信息和知识。
2009年,百度CEO李彦宏提出了“框计算”理念,这是一种简单、可依赖的互联网需求交互模式,用户只要在框中输入服务需求,系统就能明确识别这种需求,并将该需求分配给最优的应用或内容资源提供商处理,最终返回给用户相匹配的结果。
赵世奇认为,“语义搜索”是框计算理念得以实现的重要技术保证。“‘语义搜索’未来的重点可能包括‘查询的深入理解’和‘资源的精细加工’。”
搜索引擎的未来会变成什么样子,赵世奇心中已经有了更加明确的方向,他做了一个巧妙的比喻:“当电灯发明之前,大家觉得点蜡烛也蛮好的,晚上可以照亮。但是当电灯发明后,人们才发现原来蜡烛是满足不了需求的。因此,如果我们依据当前对搜索引擎的定义来看搜索,其实它已经差不多达到了需求,但是这不代表用户内心里真的没有更高的需求。如果我们能够努力地突破这一层,在更上一层回头看搜索引擎的时候,才能看到它有什么不足的地方。”
话不多,这是赵世奇给人的第一印象,他的自我介绍也颇为简单:“我在百度工作,研究语义搜索。”
但是话匣子一旦打开,就会发现赵世奇并非一个只钻技术的狂人,他思维敏捷,爱好广泛,对生活抱以随性的平实态度。
“与技术保持距离。”这是赵世奇的研究态度,对他而言,技术的极致与否要从用户的需求出发,如果埋头技术不问需求,反而会走进一个技术“怪圈”。
歪打正着
计算机语言学。2003年,大三刚一结束,赵世奇得知已被保送研究生,在大四就要开始实验室生涯,但这门学科是赵世奇鲜有听闻,从未接触过的领域。
自然语言处理技术的发展,得益于搜索引擎的发展,而在当时,搜索引擎方兴未艾,自然语言处理完全是个大冷门,眼看同学们都在网络安全与数据库的研究范畴里拼抢,赵世奇想到了退出。
为此,学科带头人多次找到赵世奇,将这一交叉学科的兴趣点罗列出来。“计算机科学、语言学、数学融合在一起,少了单一学科的枯燥,领域更为宽广。”
“那就读吧。”在赵世奇的回忆中,他其实不是一个目标清晰的人,更多的是随遇而安,这样的心态反而让他不必左顾右盼而专心于这一领域。“这就是一个阴差阳错的安排,我没想到我能做好。慢慢的,一年后,我有了些感觉。”
在日后的研究中,赵世奇从一名“小白”逐渐找到了自己的方式。真正挑动起赵世奇积极性的是每次做出的小系统和程序,能够进一步理解人类语言,这样的成就感在一点一滴的积累中,推动赵世奇不断向前。
3年后,赵世奇被保送攻读博士学位。
赵世奇一直保持了“随遇而安”的心态。在同学都为着出国深造削尖脑袋考托福时,赵世奇慢了半拍。最终让赵世奇放弃出国念头的还是在于他内心对“研究”的看法,如果出国,他将学习另一种研究思路和范式,但如果能在荷枪实弹的实际环境中磨练,将研究用于实用,会更有价值,赵世奇选择了后者。
转换思路
也正是抱着“实干”的态度,在攻读完博士后,赵世奇进入百度,这和他所想要的荷枪实弹恰好呼应,他看中了百度广阔的发展平台。“首先,百度搜索引擎很倚重自然语言处理技术,这与我的博士课题方向非常一致;其次,百度是一个非常大且非常有活力的平台,在这样的企业中工作,自己的成长也会更快。”
赵世奇所在的自然语言处理团队,是百度最核心的技术团队之一,其成员全部由顶尖学者和工程师组成,规模已达60余人。百度为这些“赵世奇们”从事的前沿技术探索提供了庞大用户数据库资源和强有力的技术支持:从用户量上看,百度已覆盖95%以上的中国网民,拥有超过两亿注册用户;从技术投入上看,百度拥有3000多名全球顶级的搜索技术工程师,技术研发和产品投入更是超过了公司年度营收的1/3。
“单独做研究可以天马行空,有趣、离奇、新颖或者前瞻。”赵世奇刚进入百度,就发现在企业做科研与在院校的研究院有根本区别,将研究成果转化为实际的产品才是最难的。
在百度,对技术研发方向的确认必须经过“层层把关”。经过公司的内部考量,与现有产品的嫁接,以及用户的考验后,此项研究开发才能被确认其价值。赵世奇时常提醒自己,在理论研究和应用实践中找到平衡点。
“当我们考虑问题的时候,我们常常回到原点,返回用户搜索行为的源头去思考,如何让搜索引擎读懂用户想说什么、想找什么。”赵世奇在百度的一年时间里,理解到技术层面的更新不是最重要的,更重要的是一名技术人员思维方式的转变。
让机器读懂人的思想
“我不是一个技术狂人,也不痴迷于技术。”这是赵世奇的科研态度。在大学做研究时,他并不爱时常泡实验室,在百度工作,加班也不是他的风格。“对技术保持若即若离,更有利于研发。”
对于赵世奇而言,让机器读懂人的思想,是他的追求。
“当我们看到用户的查询时,就在想能不能去反推或者猜测他脑子里的问题到底是什么?从研究者的角度来讲,这也是很有趣的问题。”而对于资源的精细加工,赵世奇觉得当前搜索引擎对于互联网资源的利用还不够深入,未来将会把信息抽取和数据挖掘技术更多地应用进来,使得用户检索的对象不再是网页,而是网页中的信息和知识。
2009年,百度CEO李彦宏提出了“框计算”理念,这是一种简单、可依赖的互联网需求交互模式,用户只要在框中输入服务需求,系统就能明确识别这种需求,并将该需求分配给最优的应用或内容资源提供商处理,最终返回给用户相匹配的结果。
赵世奇认为,“语义搜索”是框计算理念得以实现的重要技术保证。“‘语义搜索’未来的重点可能包括‘查询的深入理解’和‘资源的精细加工’。”
搜索引擎的未来会变成什么样子,赵世奇心中已经有了更加明确的方向,他做了一个巧妙的比喻:“当电灯发明之前,大家觉得点蜡烛也蛮好的,晚上可以照亮。但是当电灯发明后,人们才发现原来蜡烛是满足不了需求的。因此,如果我们依据当前对搜索引擎的定义来看搜索,其实它已经差不多达到了需求,但是这不代表用户内心里真的没有更高的需求。如果我们能够努力地突破这一层,在更上一层回头看搜索引擎的时候,才能看到它有什么不足的地方。”