论文部分内容阅读
3D视觉成像的三个方向
曾经,智能手机只要做到性能强、网速快、拍照清晰、续航持久就可以了。然而,如今的人们已經不再满足于“屏幕内的视界”,除了需要拍摄更具立体感的照片,更安全的面部识别/支付、3D试妆、AR装潢、AR游戏、体感游戏、全息影像交互等需要“3D视觉成像”技术支撑的应用环境(图1),才是智能手机未来的发展趋势。
根据原理和硬件实现方式的不同,智能手机领域最靠谱的3D视觉成像技术逐渐衍生出了三个方向,它们分别是双目立体成像、3D结构光以及TOF技术。下面,就让我们依次了解一下这三种技术的差异吧。
双目立体成像:无解的光线
我们去电影院通过立体眼镜观看3D电影,就是双目成像技术的一种表现形式:由于双眼会有视觉差距,从而呈现出立体的画面。在手机领域,配备两颗摄像头阵列,就满足了双目成像技术的最基本要求。
双摄手机能干啥
如今几乎所有千元以上的新品都在主打双摄模块(图2),而两颗镜头的组合,也赋予了智能手机在一定程度上侦测物体远近的能力,可以拍摄出具备硬件级背景虚化效果的照片。此外,以华为/荣耀手机为代表的品牌,在相机APP中还提供了“3D动态全景”模式(图3)。点击开启后,只要按住快门将摄像头对准被摄物体,然后绕着它沿固定方向移动,松开手即可完成拍摄。
在相册预览时,我们只要点击照片中对应的3D图标,就能将这张静止的图片变成动态的视频,通过陀螺仪转动手机,或手指的拖拽移动欣赏拍摄物体的不同角度。总之,在拍摄具备景深信息和3D动态的立体照片,以及时下流行的AR合影和AR萌拍时(图4),双摄手机的表现总会优于单摄手机,而这就是类似双目成像技术背后的功劳。
来自光线的困扰
智能手机所武装的标准摄像头能否拍摄清晰的图像,完全取决于环境的光线,过亮或过暗的光线都会造成识别上的困难。就拿时下流行的“面部识别”功能为例(图5),无论手机前置摄像头是1颗还是2颗,其本质上还是2D成像,不仅存在被面部照片或面部视频“欺骗”的风险,在漆黑环境下也将彻底失效。
为此,很多手机还会额外搭配专用的前置红外补光单元,从而解决漆黑环境下的面部识别难题。比如小米8,就在屏幕的刘海部分添加了隐藏式的红外照明原件和红外相机(图6)。需要注意的是,红外补光单元的加盟,依旧无法解决此类手机属于2D成像面部识别的事实,与iPhone X可以用于安全支付的Face ID不可同日而语。
换句话说,目前智能手机通过双摄模拟双目成像技术的方案,最多只能算是2.5D,无论是精准度还是对光线敏感度的要求,都还不足以帮助手机进入真正的3D视觉成像时代。
3D结构光:距离是死穴
iPhone X是一款里程碑式的产品,它在手机领域首次实现了深度机器视觉技术,依靠名为“结构光技术”的硬件模组,实现了对面部信息采集从2D到3D的进化。
浅析结构光技术
简单来说,iPhone X在采集面部信息时,前置摄像头基本就是摆设,而是依靠由红外镜头、泛光感应元件和点阵投影器构成的“结构光模具”(图7)。其中,点阵投影器会发射3万多个肉眼不可见的光点投影在你的脸部,绘制出三维建模的立体面谱(图8),红外镜头则会读取这些点阵图案,并将信息发送到A11处理器的安全隔离区进行匹配对照,而泛光感应则是确保识别面部不受环境光线的影响。
和前文提到的已经逐渐普及的、基于前置摄像头和软件算法实现的2D面部识别方案相比,iPhone X通过结构光带来的Face ID,具备金融级别的安全等级,因此苹果才敢让Face ID在解锁手机之外,还能用于购买应用以及支付Apple Pay。
如今,结构光技术已经不再是iPhone X的专利,小米8探索版、OPPO Find X等手机都先后引入了类似的技术,从而实现了媲美iPhone X的Face ID能力。需要注意的是,小米8探索版的结构光模块暂时只能用来解锁(通过屏下指纹识别用于支付),而OPPO Find X则已支持支付宝刷脸支付的功能。 从技术上来看,iPhone X、小米8探索版和OPPO Find X的结构光模块大致相同,只是在元器件的叫法、点阵传感器类型和发射点的数量上存在差异。比如iPhone X将关键元件称为点阵投影器(散斑结构光,可发射3万个识别点)、红外镜头和泛光感应元件;小米8探索版叫点阵投影器(编码结构光,可发射3.3万个识别点)、红外相机和泛光照明元件(图9);Find X则称为点阵投影器(散斑结构光,可发射1.5万个识别点)、IR补光灯和IR摄像头(图10)。虽然细节上存在不同,但几款手机在面部解锁的体验上却基本相同。
结构光技术的缺陷
结构光技术帮助手机进入了3D视觉成像时代,但它的实际应用范围还是相对有限,比如它只能放在手机正面与前置摄像头做邻居,目前比较成熟的方案也就是面部解锁、面部支付、3D美颜以及类似Animojis的3D表情制作(图11)。而未来结构光的优化方向则是实现3D静态建模,扫描用户3D头像信息用于游戏、3D视频通话或进行3D打印(图12)。
此外,结构光的特点是不必获取被拍摄物体的表面纹理,而是将一簇簇的光线投影到物体的表面,进而通过光线采集物体的位置以及三维纵深等信息。然而,正是因为结构光投射的是一簇簇的光线,如果距离过远,光线就会发散从而失去识别能力,这也就造成了结构光仅能作用于近距离识别。
无论是iPhone X、小米8探索版还是Find X,只要手机距离面部超过1米左右,解锁就会失效。当然,现实中手机解锁时距离我们也就是一臂的距离,并不影响结构光的识别,但如果用于更远距离的AR/VR交互就有些不够看了。
TOF技术:未来的趋势
TOF(Time of flight,飞行时间测距法)同样是一种用于3D视觉成像的技术,它和结构光一样,都是通过光线进行物体的识别,但二者在底层技术和识别效果方面却存在着极大的差异。
TOF技術的原理和优势
TOF技术的原理,就是通过专用传感器,给目标连续发送光脉冲,然后用传感器接收从物体返回的光,最终通过探测光脉冲的飞行(往返)时间来得到目标物的距离。和结构光的点阵传感器相比,TOF技术在距离和精度上有了极大的改善:
1结构光技术发射的是一簇簇的光线,而TOF技术发射的是一整面光线(图13),可见有效深度信息点从3万个提升到30万个甚至更多。当用户进行解锁和支付等涉及安全的操作时,TOF技术可带来更精细的深度成像,最大限度提升人脸识别的安全性,做到金融级别的安全保护(图14);
2结构光技术的最佳工作距离为0.2米到1.2米,而TOF技术的最佳工作距离为0.4米到5m米(理论最高可达10米),更远的有效距离,可以进一步扩展3D视觉成像应用的范围和潜力;
3TOF技术的传感器比结构光模块更少更小,成本相对更低,也可以简化手机主板布局,哪怕是仅有屏幕1/3宽度的“刘海”里也足够容纳相关的硬件单元;
4TOF技术既可以与手机前置摄像头联姻,放在手机的额头位置,也能与手机后置镜头搭档,实现背部三摄的豪华布局。
前置TOF设计方案
vivo曾在2018世界移动大会(上海)中发布了前置TOF方案(图15),并将其命名为“vivo TOF 3D超感应技术”。由于TOF的功能与结构光有所重叠,所以前置TOF设计同样可以带来与结构光相似的功能,比如金融级的面部解锁、面部支付、3D美颜、3D表情、3D头像建模等,利用TOF有效距离更远的优势,在应用范围和实际体验上的表现会更好(图16)。
比如,利用手机将万物(比如自己的头像)建模,再将模型与其他虚拟游戏结合,让玩家自己作为“新世界”的主角,兼顾沉浸式视觉体验与体感操作的乐趣。此外,在购物方面,TOF可以带来更真实和精确的3D试衣效果,无需逛卖场试衣就能放心下单。
后置TOF设计方案
OPPO最新发布的R17 Pro属于后置TOF方案的代表,它在后置双摄的上方安装了第三颗镜头(图17、图18),也就是所谓的TOF模块,从而将后置拍照从2D时代推向3D时代。
和前置TOF方案相比,后置TOF自然不再适用于面部解锁和面部支付等功能了,但它在后置镜头的3D美颜、AR装潢、AR游戏、体感游戏、全息影像交互等功能上,却可以带来比前置TOF方案更好的体验。
其中,AR无疑是后置TOF方案的主战场,因为时下大部分AR应用都是使用后置摄像头拍摄真实世界的画面并进行算法识别,然后再进行内容的填充。有了TOF技术加持的后置摄像头,可以将更完美的3D建模填充到画面里(图19),让AR效果更真实。
理性看待TDF技术前景
对智能手机而言,TOF是比结构光更具前景的3D视觉成像技术,它可以让手机屏幕从单纯的2D画面转变到更具空间感的3D画面,无论是画面的信息还是内容都将兀然增多。通过TOF模块与前置或后置镜头的搭配,还可以让TOF更有针对性地满足具体应用场景的安全和体验需求。
可惜的是,TOF技术才刚刚进入商业化量产的前期阶段,与其搭配的应用环境还不成熟,所以如今它的玩法还不够丰富,相关手机的售价也谈不上性价比,短期内还是属于偏概念的技术。想让TOF技术真正爆发,还需要等待5G网络的普及,届时TOF搭配更极致的网速和带宽,它将在3D视频通话、远程VR、远程AR、远程JR等泛现实迎来杀手级的体验(图20)。
让我们共同期待吧。