论文部分内容阅读
让机器看懂世界很难,一个2岁小孩看过一次猫就能从图片中识别出“猫”,可计算机却不行。
李飞飞是利用深度学习解决计算机视觉问题的第一代学者,受2岁小孩识图的启发,利用大数据训练机器。
华裔、女性、人工智能、科学家,“洗衣妹”、“清洁工”、“逆袭”这些标签凑在一起,给她的人生更添了一抹传奇色彩。
人工智能是个好故事,其中最重要的素材当属人才。科技巨头们为此使尽浑身解数。谷歌费尽心机把“深度学习”之父Geoffrey Hinton招致麾下,Facebook有深度学习的领袖学者Yann LeCun,苹果有Geoffrey Hinton的一位明星弟子Russ Salakhutdinov,百度曾挖来吴恩达……人才的争夺愈演愈烈之时,曾埋首大学实验室里的科学家们纷纷踏足工业界,助力这一波AI浪潮。
近半年,最出名的一次科学家出山,当属与吴恩达齐名的另一位华裔学者李飞飞加入Google云部门,担任Google云端人工智能的首席科学家。在AI界,李飞飞的大名如雷贯耳。她是斯坦福视觉实验室、丰田汽车-斯坦福人工智能研究中心的负责人,1976年出生于北京,33岁就拿到了斯坦福的终身教职,是当时最年轻的终身教授。
如果用围棋来比喻,李飞飞是稀有的几个九段高手之一。她专注于计算机视觉上的研究已达15 年之久,被评价为“计算机视觉领域改变图像识别方向的人”。所谓计算机视觉,即教会计算机看懂世界。这是AI研究长久以来的目标,然而,对于人来说的一个相当简单的认知过程,对于计算机却非常困难。李飞飞的最重要的成就之一就是2007年发起了 ImageNet,现在全球最大的图像识别数据库。
华裔、女性、人工智能、科学家,这些标签凑在一起,让人们对李飞飞刮目相看,尤其“洗衣妹”“清洁工”“逆袭”这些耸动的字眼总出现在她的相关报道中,给她的人生更添了一抹传奇色彩。北京出生的她在四川长大,16岁跟随父母移民到美国新泽西州的Parsippany 小镇。当时全家人英语都很差,父母又没有良好的经济来源,只能做一些类似超市收银员、修理相机等工作赚取微薄的收入,生活得很边缘。李飞飞边补英语边上学边打零工,两年后竟拿到了普林斯顿大学的全额奖学金录取。这让她在小镇名噪一时,当地报纸还刊登了她的报道,标题是《“美国梦”成真了!》。大学期间,凭借敏锐的商业嗅觉,李飞飞借钱买下一家洗衣店给父母经营。周一到周五,她在大学上课,到了周末,她便走出实验室,变身“洗衣妹”。她曾笑言:“我非常爱普林斯顿,不过也非常爱我的洗衣店,缺少了它们中的任何一件,都没有现在的我。”
李飞飞从小就很喜欢数学和科学,大学便选择了物理专业。“當时怀着成为爱因斯坦的梦想,物理可以说是人类世界最基础的科学。但在学习物理的过程中,我发现其实20世纪初,最伟大的物理学家包括爱因斯坦开始思考的问题已经从物理转向了生物。他们在思考人是从哪里来的,人的智慧是从哪里来的,所以我也开始关注。我也很关注神经生物学,大学时做了几个神经生物学的暑期实习,觉得特好玩。”可以说这时候,对于人的智慧与生物的兴趣,就为李飞飞后来走入人工智能的世界埋下了线索。
1999年,她毕业时正值大牛市,华尔街异常繁荣。很多著名投行和咨询公司向她来抛了橄榄枝,她却拒绝了,而是追随了内心,远赴西藏研究了一年藏医。对于生物学的热情从来没有停止过,西藏归来,她进入加州理工攻读博士学位,选择的是认知神经生物学以及人工智能的方向,后来就“阴差阳错地走上了人工智能这条路”。
李飞飞是将深度学习用来解决计算机视觉问题的第一代学者。让机器看懂世界很难,一个2岁小孩看过一次猫就能从图片中识别出“猫”,可计算机却不行。“我们用很多机器学习概率学的方式,但我们得手工去设计,它的能力很快表现出局限,而且所有的数据集都特别小。到2007年时,我自己刚刚变成一个年轻的教授,我在思考怎么突破这个瓶颈。”当时李飞飞已成为斯坦福大学计算机系教授,图像识别领域还是冷门,同事们劝她换个方向,以便拿到终生教职,她没听。有一天,她突然意识到,由于人眼每200毫秒就能获取一幅图像,别看两岁的小孩就能识别物体,但他从0到2岁就已经看到了上亿的图片了,是计算机的几何级倍数,因为人的眼睛随时都在吸收自然环境中的图像,据此,李飞飞提出了大数据的概念。她开始从网上抓取海量照片,给它们打上标签后,训练计算机进行深度学习,即给出一定算法,让计算机自己学习识别。
李飞飞带着博士生从网上下载了上亿张图片,如果靠一个人来手工标注,不吃不喝不睡,都要花上20年才能完成。后来是亚马逊的众包平台解救了她,她在上面雇佣来自全世界的网友一起给图片打标签。其间,实验室一度缺少人手,又申请不到经费。最困难的时候,她甚至想重开洗衣店,筹集实验资金。最终,来自167个国家的5万名网友一共花了3年时间完成了海量图片的标注,随后,具有里程碑意义的ImageNet诞生了。
ImageNet数据库的重要价值还在于它是开源的,每个实验室都可以调取使用。依据 ImageNet ,李飞飞发起了一年一度的视觉识别挑战赛,邀请谷歌、微软等科技巨头参赛,促进图像识别和人工智能领域的交流。ImageNet 相当于一个算法考场,参赛者可以利用它庞大的题库进行考试,正确率越高,就意味着该参赛者的图像识别算法越好。为了争夺榜首名次,各大科技巨头也卯足了劲儿地进行图像识别方面的研究,就在过去几年中,机器的图像识别能力大大提高,出错率仅为约 5%(比人眼还低)。可以说该比赛刺激了图像识别的发展,而李飞飞对计算机视觉乃至整个人工智能的发展都是最大的功臣之一。 今年初,李飞飞来到北京参加活动。接受采访时,她会以“说实话我对AlphaGo 并不是特别了解”、“我没有看过《西部世界》”、“我没有看过《最强大脑》”、“我没有读过《失控》那本书”等句子来开场。李飞飞坦承,她不是一个特别关注热点的人,“我个人的心得是,眼睛看到的前方应该是比较空旷的。如果你眼睛看到的前方是热闹的,那这个方向就不是最好的研究方向。而空旷的地方一般都不是热点,因此你必须找准自己的焦点。如果我关注热点,就没有今天的ImageNet。”然而正是有很多像李飞飞这样在冷板凳上钻研数十载的科学家,才成就了今天人工智能的热点。
这次加入Google,李飞飞并没有离开斯坦福的职位,她利用的是自己两年的学术假期。在美国的大学里,教授每7年可以享受一次为期一年的假期。从默默埋首实验室到移步工业界,李飞飞说她希望“将人工智能技术民主化”,就是让更多人可以受惠于技术进步。那为什么选择了Google呢?她回答:“Google云部門本身以及Google的数据,对应人工智能技术有很大的帮助。”
Q=杨澜A=李飞飞
Q:所谓的深度学习,包括研究者对机器的训练吗?怎样实现的呢?
A:最早期的深度学习是通过我们supervise training(监督培训),每张标注的图片,我们有正确答案,然后把它交给神经网络,比如图片里是pixel(谷歌手机),它就开始去搜集pixel的一些样式。然后它把它放进一个数学模型里,然后它得出第一次的答案,因为它知道正确答案是一只猫,那它就发现不对,那么我们就通过正确和错误的答案的这个差别,来重新去修正一些参数,然后这样不断的迭代。成千上万次后它就得到了正确的答案。
Q:如果看到一张图片,主角是一只猫,它的背景是个旧货市场,或这个猫在追另一只猫。机器现在有能力来区别背景和主角,或它们之间的关系吗?
A:现在可以,我们已经发展到物体在复杂的背景前,只要它有合理的大小就能被识别。下一步是不光是识别这张图片里有一只猫,它也许背景比较乱,这只猫在哪里,我们能把它框出来,这也已经达到了。一只猫追一只狗或另一只猫,我们开始在做这些工作,实验室上刚推出了一篇论文,就关于识别运动和关系的,但还没有完全做到,比如猫是什么表情,它们可能往哪走,这些更多的我们还没做出来。
Q:我看到有个文章里写道,对于我们来说很普通的常识,比如一杯水放在桌子上,对于机器,它很难辨别出杯子和桌子间的关系,它们是不是长在一起?
A:所以我们人工智能科学家往往不担心人工智能变成终结者,因为它们连这种基本常识都没有,人工智能虽然现在很厉害,它通过大数据深度学习,但还是停留在你说我背的阶段,你给它大数据,它记住了,记得还比较聪明,存储量、计算量也很大,你再给它一些图片,它能识别。但一旦进入抽象,进入对世界的基础认知,包括重力的关系,杯子和桌子的关系,你把一个杯子拿起来,人工智能现在并不能告诉你水会倒流出来,除非它已经看过无数的图片,所以确实它还有很多没有做到。
Q:你提到有人文关怀的人工智能,我很赞同,最终无论是谁在研究人工智能,谁在使用,人工智能在为人做什么,其实它一直是人和机的交互。听说你也在特别关注一些陪护领域的人工智能的发展,能介绍一些这方面的情况吗?
A:其实这跟我个人的经历有关,我姥姥已经95岁了,我离她很远,家里人有些也离她比较远,我们特别关心她每天的起居,所以大概三年前我就开始思考人工智能真的是走向应用场景了,会对人类社会造成深远的影响。我就思考到医疗,而我不是第一个,也不是最后一个,很多同事也开始思考医疗的重要性。首先人类的健康是特别重要的,第二医疗特别贵,第三医疗是个特别数据化的问题,人工智能恰恰又特别擅长数据问题,而且还有一个社会老龄化的问题。所以我就开始和斯坦福医学院合作,我们做了3个项目去展示人工智能技术以及计算机视觉和机器学习技术能在3个不同的场景进行一些突破。第一个场景是重症医疗室,ICU里有很多工作,在美国一般是一或两个病人有一个护士,轮职的12个小时看护,护士医生都是不带停的,美国整个GDP的1%都用在ICU里边。ICU里如果出现任何差错就是生命和死亡的问题,所以我们就跟斯坦福科学医学院合作,通过modern sensor(现代传感器)来帮助护士和医生。
Q:那姥姥什么时候能用上你的技术?
A:我要努力工作呀。另外一个场景就是老人院,在西方有很多老人独立生活,但在独立生活中,家人也好,医疗工作人员也好,其实很关注他们的作息,身体和心理的变化。所以我们也跟旧金山的一个老人院合作,通过modern sensor和护士一起了解老人的生活方式,而且可以做一些预测,这是我们现在关注的方向。
Q: MIT的人工智能实验室和斯坦福的人工智能实验室分别都是两位女士来领军的,但在整个行业中,女性科学家的比例究竟有多少呢?
A:非常少,我和Daniela Rus领军两个实验室,是历史的巧合,不是常态。在斯坦福人工智能实验室,到目前为止我还是唯一的女性教授,我们一共有20多位教授啊。在斯坦福整个工程学院,女性教授少于15%。在整个人工智能领域,女性可能不会多于10%。
Q:你觉得这种现象需要改变吗?是像有些人说的女孩子天生就对科学不怎么感兴趣吗?或是这方面的能力不如男孩子?
A:我觉得需要改变,这不光是女性的问题,是人类的问题。每一项科技都代表我们的价值观,如果我们希望科技是一个朴实友好的、代表全人类的价值观,那谁来承载起它?它包括男性、女性,黑人、白人、黄种人,包括不同领域的人。
我常跟我同事和学生提一个很好玩的事,就是你到谷歌的图片搜索里搜一个非常简单的词grandma(奶奶),就会发现第一页显示的全是白人的老奶奶,你就想,如果是一个外星人到我们地球想学我们地球上的人,问grandma是什么东西呢?一搜看到的就是白人老奶奶。这个小小的例子可以告诉你,如果科技不引入我们的价值观、不引入我们关怀的一些东西,它不小心就会只代表一部分人的价值观和关注的事。所以我一直强调,不管是女性还是其他来自不同背景的人,我们一定要参与人工智能,参与科技。如果你相信科技能改变人类的话,那你就来,我们应该鼓励这种参与。
李飞飞是利用深度学习解决计算机视觉问题的第一代学者,受2岁小孩识图的启发,利用大数据训练机器。
华裔、女性、人工智能、科学家,“洗衣妹”、“清洁工”、“逆袭”这些标签凑在一起,给她的人生更添了一抹传奇色彩。
人工智能是个好故事,其中最重要的素材当属人才。科技巨头们为此使尽浑身解数。谷歌费尽心机把“深度学习”之父Geoffrey Hinton招致麾下,Facebook有深度学习的领袖学者Yann LeCun,苹果有Geoffrey Hinton的一位明星弟子Russ Salakhutdinov,百度曾挖来吴恩达……人才的争夺愈演愈烈之时,曾埋首大学实验室里的科学家们纷纷踏足工业界,助力这一波AI浪潮。
近半年,最出名的一次科学家出山,当属与吴恩达齐名的另一位华裔学者李飞飞加入Google云部门,担任Google云端人工智能的首席科学家。在AI界,李飞飞的大名如雷贯耳。她是斯坦福视觉实验室、丰田汽车-斯坦福人工智能研究中心的负责人,1976年出生于北京,33岁就拿到了斯坦福的终身教职,是当时最年轻的终身教授。
如果用围棋来比喻,李飞飞是稀有的几个九段高手之一。她专注于计算机视觉上的研究已达15 年之久,被评价为“计算机视觉领域改变图像识别方向的人”。所谓计算机视觉,即教会计算机看懂世界。这是AI研究长久以来的目标,然而,对于人来说的一个相当简单的认知过程,对于计算机却非常困难。李飞飞的最重要的成就之一就是2007年发起了 ImageNet,现在全球最大的图像识别数据库。
华裔、女性、人工智能、科学家,这些标签凑在一起,让人们对李飞飞刮目相看,尤其“洗衣妹”“清洁工”“逆袭”这些耸动的字眼总出现在她的相关报道中,给她的人生更添了一抹传奇色彩。北京出生的她在四川长大,16岁跟随父母移民到美国新泽西州的Parsippany 小镇。当时全家人英语都很差,父母又没有良好的经济来源,只能做一些类似超市收银员、修理相机等工作赚取微薄的收入,生活得很边缘。李飞飞边补英语边上学边打零工,两年后竟拿到了普林斯顿大学的全额奖学金录取。这让她在小镇名噪一时,当地报纸还刊登了她的报道,标题是《“美国梦”成真了!》。大学期间,凭借敏锐的商业嗅觉,李飞飞借钱买下一家洗衣店给父母经营。周一到周五,她在大学上课,到了周末,她便走出实验室,变身“洗衣妹”。她曾笑言:“我非常爱普林斯顿,不过也非常爱我的洗衣店,缺少了它们中的任何一件,都没有现在的我。”
李飞飞从小就很喜欢数学和科学,大学便选择了物理专业。“當时怀着成为爱因斯坦的梦想,物理可以说是人类世界最基础的科学。但在学习物理的过程中,我发现其实20世纪初,最伟大的物理学家包括爱因斯坦开始思考的问题已经从物理转向了生物。他们在思考人是从哪里来的,人的智慧是从哪里来的,所以我也开始关注。我也很关注神经生物学,大学时做了几个神经生物学的暑期实习,觉得特好玩。”可以说这时候,对于人的智慧与生物的兴趣,就为李飞飞后来走入人工智能的世界埋下了线索。
1999年,她毕业时正值大牛市,华尔街异常繁荣。很多著名投行和咨询公司向她来抛了橄榄枝,她却拒绝了,而是追随了内心,远赴西藏研究了一年藏医。对于生物学的热情从来没有停止过,西藏归来,她进入加州理工攻读博士学位,选择的是认知神经生物学以及人工智能的方向,后来就“阴差阳错地走上了人工智能这条路”。
李飞飞是将深度学习用来解决计算机视觉问题的第一代学者。让机器看懂世界很难,一个2岁小孩看过一次猫就能从图片中识别出“猫”,可计算机却不行。“我们用很多机器学习概率学的方式,但我们得手工去设计,它的能力很快表现出局限,而且所有的数据集都特别小。到2007年时,我自己刚刚变成一个年轻的教授,我在思考怎么突破这个瓶颈。”当时李飞飞已成为斯坦福大学计算机系教授,图像识别领域还是冷门,同事们劝她换个方向,以便拿到终生教职,她没听。有一天,她突然意识到,由于人眼每200毫秒就能获取一幅图像,别看两岁的小孩就能识别物体,但他从0到2岁就已经看到了上亿的图片了,是计算机的几何级倍数,因为人的眼睛随时都在吸收自然环境中的图像,据此,李飞飞提出了大数据的概念。她开始从网上抓取海量照片,给它们打上标签后,训练计算机进行深度学习,即给出一定算法,让计算机自己学习识别。
李飞飞带着博士生从网上下载了上亿张图片,如果靠一个人来手工标注,不吃不喝不睡,都要花上20年才能完成。后来是亚马逊的众包平台解救了她,她在上面雇佣来自全世界的网友一起给图片打标签。其间,实验室一度缺少人手,又申请不到经费。最困难的时候,她甚至想重开洗衣店,筹集实验资金。最终,来自167个国家的5万名网友一共花了3年时间完成了海量图片的标注,随后,具有里程碑意义的ImageNet诞生了。
ImageNet数据库的重要价值还在于它是开源的,每个实验室都可以调取使用。依据 ImageNet ,李飞飞发起了一年一度的视觉识别挑战赛,邀请谷歌、微软等科技巨头参赛,促进图像识别和人工智能领域的交流。ImageNet 相当于一个算法考场,参赛者可以利用它庞大的题库进行考试,正确率越高,就意味着该参赛者的图像识别算法越好。为了争夺榜首名次,各大科技巨头也卯足了劲儿地进行图像识别方面的研究,就在过去几年中,机器的图像识别能力大大提高,出错率仅为约 5%(比人眼还低)。可以说该比赛刺激了图像识别的发展,而李飞飞对计算机视觉乃至整个人工智能的发展都是最大的功臣之一。 今年初,李飞飞来到北京参加活动。接受采访时,她会以“说实话我对AlphaGo 并不是特别了解”、“我没有看过《西部世界》”、“我没有看过《最强大脑》”、“我没有读过《失控》那本书”等句子来开场。李飞飞坦承,她不是一个特别关注热点的人,“我个人的心得是,眼睛看到的前方应该是比较空旷的。如果你眼睛看到的前方是热闹的,那这个方向就不是最好的研究方向。而空旷的地方一般都不是热点,因此你必须找准自己的焦点。如果我关注热点,就没有今天的ImageNet。”然而正是有很多像李飞飞这样在冷板凳上钻研数十载的科学家,才成就了今天人工智能的热点。
这次加入Google,李飞飞并没有离开斯坦福的职位,她利用的是自己两年的学术假期。在美国的大学里,教授每7年可以享受一次为期一年的假期。从默默埋首实验室到移步工业界,李飞飞说她希望“将人工智能技术民主化”,就是让更多人可以受惠于技术进步。那为什么选择了Google呢?她回答:“Google云部門本身以及Google的数据,对应人工智能技术有很大的帮助。”
Q=杨澜A=李飞飞
Q:所谓的深度学习,包括研究者对机器的训练吗?怎样实现的呢?
A:最早期的深度学习是通过我们supervise training(监督培训),每张标注的图片,我们有正确答案,然后把它交给神经网络,比如图片里是pixel(谷歌手机),它就开始去搜集pixel的一些样式。然后它把它放进一个数学模型里,然后它得出第一次的答案,因为它知道正确答案是一只猫,那它就发现不对,那么我们就通过正确和错误的答案的这个差别,来重新去修正一些参数,然后这样不断的迭代。成千上万次后它就得到了正确的答案。
Q:如果看到一张图片,主角是一只猫,它的背景是个旧货市场,或这个猫在追另一只猫。机器现在有能力来区别背景和主角,或它们之间的关系吗?
A:现在可以,我们已经发展到物体在复杂的背景前,只要它有合理的大小就能被识别。下一步是不光是识别这张图片里有一只猫,它也许背景比较乱,这只猫在哪里,我们能把它框出来,这也已经达到了。一只猫追一只狗或另一只猫,我们开始在做这些工作,实验室上刚推出了一篇论文,就关于识别运动和关系的,但还没有完全做到,比如猫是什么表情,它们可能往哪走,这些更多的我们还没做出来。
Q:我看到有个文章里写道,对于我们来说很普通的常识,比如一杯水放在桌子上,对于机器,它很难辨别出杯子和桌子间的关系,它们是不是长在一起?
A:所以我们人工智能科学家往往不担心人工智能变成终结者,因为它们连这种基本常识都没有,人工智能虽然现在很厉害,它通过大数据深度学习,但还是停留在你说我背的阶段,你给它大数据,它记住了,记得还比较聪明,存储量、计算量也很大,你再给它一些图片,它能识别。但一旦进入抽象,进入对世界的基础认知,包括重力的关系,杯子和桌子的关系,你把一个杯子拿起来,人工智能现在并不能告诉你水会倒流出来,除非它已经看过无数的图片,所以确实它还有很多没有做到。
Q:你提到有人文关怀的人工智能,我很赞同,最终无论是谁在研究人工智能,谁在使用,人工智能在为人做什么,其实它一直是人和机的交互。听说你也在特别关注一些陪护领域的人工智能的发展,能介绍一些这方面的情况吗?
A:其实这跟我个人的经历有关,我姥姥已经95岁了,我离她很远,家里人有些也离她比较远,我们特别关心她每天的起居,所以大概三年前我就开始思考人工智能真的是走向应用场景了,会对人类社会造成深远的影响。我就思考到医疗,而我不是第一个,也不是最后一个,很多同事也开始思考医疗的重要性。首先人类的健康是特别重要的,第二医疗特别贵,第三医疗是个特别数据化的问题,人工智能恰恰又特别擅长数据问题,而且还有一个社会老龄化的问题。所以我就开始和斯坦福医学院合作,我们做了3个项目去展示人工智能技术以及计算机视觉和机器学习技术能在3个不同的场景进行一些突破。第一个场景是重症医疗室,ICU里有很多工作,在美国一般是一或两个病人有一个护士,轮职的12个小时看护,护士医生都是不带停的,美国整个GDP的1%都用在ICU里边。ICU里如果出现任何差错就是生命和死亡的问题,所以我们就跟斯坦福科学医学院合作,通过modern sensor(现代传感器)来帮助护士和医生。
Q:那姥姥什么时候能用上你的技术?
A:我要努力工作呀。另外一个场景就是老人院,在西方有很多老人独立生活,但在独立生活中,家人也好,医疗工作人员也好,其实很关注他们的作息,身体和心理的变化。所以我们也跟旧金山的一个老人院合作,通过modern sensor和护士一起了解老人的生活方式,而且可以做一些预测,这是我们现在关注的方向。
Q: MIT的人工智能实验室和斯坦福的人工智能实验室分别都是两位女士来领军的,但在整个行业中,女性科学家的比例究竟有多少呢?
A:非常少,我和Daniela Rus领军两个实验室,是历史的巧合,不是常态。在斯坦福人工智能实验室,到目前为止我还是唯一的女性教授,我们一共有20多位教授啊。在斯坦福整个工程学院,女性教授少于15%。在整个人工智能领域,女性可能不会多于10%。
Q:你觉得这种现象需要改变吗?是像有些人说的女孩子天生就对科学不怎么感兴趣吗?或是这方面的能力不如男孩子?
A:我觉得需要改变,这不光是女性的问题,是人类的问题。每一项科技都代表我们的价值观,如果我们希望科技是一个朴实友好的、代表全人类的价值观,那谁来承载起它?它包括男性、女性,黑人、白人、黄种人,包括不同领域的人。
我常跟我同事和学生提一个很好玩的事,就是你到谷歌的图片搜索里搜一个非常简单的词grandma(奶奶),就会发现第一页显示的全是白人的老奶奶,你就想,如果是一个外星人到我们地球想学我们地球上的人,问grandma是什么东西呢?一搜看到的就是白人老奶奶。这个小小的例子可以告诉你,如果科技不引入我们的价值观、不引入我们关怀的一些东西,它不小心就会只代表一部分人的价值观和关注的事。所以我一直强调,不管是女性还是其他来自不同背景的人,我们一定要参与人工智能,参与科技。如果你相信科技能改变人类的话,那你就来,我们应该鼓励这种参与。