论文部分内容阅读
在寒武纪,最早的三叶虫进化出了一套非常原始的视力系统,就像最原始的照相机,能捕捉到一丁点光。但这改变了一切:能“看”之后,动物开始主动捕食,猎手和猎物之间从此开始了持续数亿年的“追踪——躲藏”游戏,行为越来越复杂。5.4亿年之后的今天,机器正在经历属于它们的视觉“大爆发”。
人机视觉大PK
你认为下面的说法是真的吗?
1.你的同桌在视频中仅出现了万分之一秒(没错,比眨眼的时间还快),但你依旧能找到她。(真假)
2.机器进行视觉识别的错误率甚至比人还低!(真假)
答案
1.真的。20世纪60年代,一位好莱坞的导演做了个很有意思的实验,他不断缩短画面播放的时间,从十几秒到几秒,最后到三分之一秒——他发现这个时长足够让观众看清楚并且充分理解画面。
科学家们受此启发,开展了更进一步的实验:向参与者播放连续多帧画面,每帧的显示时间仅有100微秒(一万分之一秒)。其中仅有一幅画面里有一个人,而大家确实都能够找出来!
2.真的。计算机视觉已经攻关了很多年,从2010年到2017年,In ageNet挑战赛的目标识别错误率一直在下降。到2015年,错误率已经达到甚至低于人类水平。
机器的眼睛是怎么“看”的?
来做一个小小的“看图说话”练习吧!仔细看下图,哪一选项的说法是错误的呢?()
答案:选项A正确
没错,看到电脑屏幕了吗?任何机器人外表漂亮的“眼睛”背后都是一架摄影机和电脑屏幕。对于人类来说,哪怕是幼儿园的小朋友,也能轻而易举地认出草莓,我们大脑内会无意识地提取出草莓的特征:“表面有一粒一粒的”“稍微有点圆的三角形”。
在看到草莓时,人们通常会想马上尝一口,哪怕还没洗过。但机器会把草莓图像分成非常细小的像素,成为一系列数字的罗列。(做个机器人好像很无聊耶!)
选项C错误。
机器会按照特殊系统对这些数字进行庞大的计算,最终提取出草莓的特征——“紅彤彤的”“表面有一粒一粒的”“稍微有点圆的三角形”等等,从而把草莓与苹果、橘子等水果区别开来。
除了瓣认草莓,机器视觉还有哪些超酷、超有用的应用呢?以下几项明星技能来亮相啦!
1.图像搜索
在九张动物图片中找到独一无二的“老虎”。你也许会想,这个工作太简单了,为什么非要机器来做?
但如果是从90张、900张,甚至9万张图片中找到老虎来做?你要头昏眼花地看上几天,但机器只要9秒钟就完成了。
2.智慧安防
有没有发现身边的监控摄像头越来越多了?银行、超市、学校、街道……机器视觉会把镜头中的东西进行“分割”,分成一个个像素组,如“汽车”“摩托车”“行人”“路灯”“树木”“可疑分子”……从而帮你判断环境是否安全,并做出记录。
3.机器人的眼睛
看看这些形形色色的机器人吧:可以陪你打乒乓球,连玩10局不喊累:可以在工厂里分拣各类物品:可以在银行大厅里跟你亲切地打招呼……它们可大可小、可萌可帅,共同点在于:都有一双能“看”的好眼睛。
4.无人驾驶
你可能在车上找不到“眼睛”,但它的车载传感系统却在时时刻刻监控路面的情况,检测交通标志、灯光和其他视觉特征。
人机视觉大PK
你认为下面的说法是真的吗?
1.你的同桌在视频中仅出现了万分之一秒(没错,比眨眼的时间还快),但你依旧能找到她。(真假)
2.机器进行视觉识别的错误率甚至比人还低!(真假)
答案
1.真的。20世纪60年代,一位好莱坞的导演做了个很有意思的实验,他不断缩短画面播放的时间,从十几秒到几秒,最后到三分之一秒——他发现这个时长足够让观众看清楚并且充分理解画面。
科学家们受此启发,开展了更进一步的实验:向参与者播放连续多帧画面,每帧的显示时间仅有100微秒(一万分之一秒)。其中仅有一幅画面里有一个人,而大家确实都能够找出来!
2.真的。计算机视觉已经攻关了很多年,从2010年到2017年,In ageNet挑战赛的目标识别错误率一直在下降。到2015年,错误率已经达到甚至低于人类水平。
机器的眼睛是怎么“看”的?
来做一个小小的“看图说话”练习吧!仔细看下图,哪一选项的说法是错误的呢?()
答案:选项A正确
没错,看到电脑屏幕了吗?任何机器人外表漂亮的“眼睛”背后都是一架摄影机和电脑屏幕。对于人类来说,哪怕是幼儿园的小朋友,也能轻而易举地认出草莓,我们大脑内会无意识地提取出草莓的特征:“表面有一粒一粒的”“稍微有点圆的三角形”。
在看到草莓时,人们通常会想马上尝一口,哪怕还没洗过。但机器会把草莓图像分成非常细小的像素,成为一系列数字的罗列。(做个机器人好像很无聊耶!)
选项C错误。
机器会按照特殊系统对这些数字进行庞大的计算,最终提取出草莓的特征——“紅彤彤的”“表面有一粒一粒的”“稍微有点圆的三角形”等等,从而把草莓与苹果、橘子等水果区别开来。
除了瓣认草莓,机器视觉还有哪些超酷、超有用的应用呢?以下几项明星技能来亮相啦!
1.图像搜索
在九张动物图片中找到独一无二的“老虎”。你也许会想,这个工作太简单了,为什么非要机器来做?
但如果是从90张、900张,甚至9万张图片中找到老虎来做?你要头昏眼花地看上几天,但机器只要9秒钟就完成了。
2.智慧安防
有没有发现身边的监控摄像头越来越多了?银行、超市、学校、街道……机器视觉会把镜头中的东西进行“分割”,分成一个个像素组,如“汽车”“摩托车”“行人”“路灯”“树木”“可疑分子”……从而帮你判断环境是否安全,并做出记录。
3.机器人的眼睛
看看这些形形色色的机器人吧:可以陪你打乒乓球,连玩10局不喊累:可以在工厂里分拣各类物品:可以在银行大厅里跟你亲切地打招呼……它们可大可小、可萌可帅,共同点在于:都有一双能“看”的好眼睛。
4.无人驾驶
你可能在车上找不到“眼睛”,但它的车载传感系统却在时时刻刻监控路面的情况,检测交通标志、灯光和其他视觉特征。