论文部分内容阅读
海市蜃楼是光的折射形成的、彩虹是光的色散形成的、平静水面上的各种倒影是光的反射形成的……自然界中许多奇妙而美丽的现象都和光有着密不可分的关系。光是物理世界观测最重要的载体之一,不管是艺术还是科学,对光的追求从未停止。
自1991年E.H.Adelson提出将光建模成一个七维全光函数,计算摄像领域自此拉开序章。清华大学副教授方璐的工作就是围绕光的感知和计算展开,她提出了新一代智能光场成像理论与技术,突破人眼极限,实现了大范围动态场景的视觉感知与处理,实现了机器看得全、看得清和看得准,她的光场成像理论与技术,是智慧城市的重要利器。
大家所熟悉的第一代单一像感器,它的成像方式和手机的成像方式类似,本质上无法突破宽视场与高分辨之间的矛盾,即无法实现既有很大的观测范围,画面又保持高清。第二代多像感器拼接成像依然有一定局限,它难以实现大场景、多对象的动态观测,并且观测维度受限。方璐团队开展了第三代“非结构化光场智能成像”的研究,使计算光场成像有了很大进展,不仅提高了观测范围、分辨率,解决了视角受限和难以动态观测等问题,还发明了大场景、多对象智能处理等技术。
基于第三代计算光场成像技术,方璐团队提出了一个全新的结构自适应、光场感知的新原理,研制了一系列的硬件可扩展、算法可自适应的装备,这一系列装备可以实现大场景、自适应、多维度的动态目标感知,能够看得全、看得清、看得真。以其研制的全景360°的相机为例,它既可以实现全景的感知,还可以实现局部细节的深度获取。这个相机还首次赋予了用户交互性,用户可以任意选择感兴趣的区域,并且可以放大看細节,获取画面局部的信息。这还可以有效应用于自动驾驶、VR等领域。
前面提到的第一代、第二代、第三代计算光场成像技术本质上依然是采用的采、存、算分离的模式,方璐团队还提出了采存算一体的第四代光电计算光场视觉,即使用可控的高维光场传播代替传统的数字硅基电路,这可以将计算速度提升3个数量级,功耗降低6个数量级。除了视觉感知,还可以做更高级的比如显著性检测与分割等系列算法。
基于以上研究,方璐团队还研制建立了PANDA(gigaPixel humAN-centric viDeo dAtaset)数据集。这是国际首个面向10亿像素视频的大范围、多人群、多目标、多尺度检测、识别、跟踪视频数据集,可用于大规模、长期和多对象视觉分析。其视频由一个10亿像素的摄像机捕获,可以覆盖超过1km2超广视场范围,其提供的视频具有高分辨率,可查看细节(每帧像素高达7.98亿)。通过这个数据集,我们既可以看到一个超大场景的多人的运动情况,同时可以实现多人群、多目标的复杂社交行为的理解。例如,识别对象是站着、坐着还是在走路;通过对比分析多个目标在一定时间内的运动状态,可以自动计算识别对象的群体关系,得出多个目标的亲密度 等。
自1991年E.H.Adelson提出将光建模成一个七维全光函数,计算摄像领域自此拉开序章。清华大学副教授方璐的工作就是围绕光的感知和计算展开,她提出了新一代智能光场成像理论与技术,突破人眼极限,实现了大范围动态场景的视觉感知与处理,实现了机器看得全、看得清和看得准,她的光场成像理论与技术,是智慧城市的重要利器。
大家所熟悉的第一代单一像感器,它的成像方式和手机的成像方式类似,本质上无法突破宽视场与高分辨之间的矛盾,即无法实现既有很大的观测范围,画面又保持高清。第二代多像感器拼接成像依然有一定局限,它难以实现大场景、多对象的动态观测,并且观测维度受限。方璐团队开展了第三代“非结构化光场智能成像”的研究,使计算光场成像有了很大进展,不仅提高了观测范围、分辨率,解决了视角受限和难以动态观测等问题,还发明了大场景、多对象智能处理等技术。
基于第三代计算光场成像技术,方璐团队提出了一个全新的结构自适应、光场感知的新原理,研制了一系列的硬件可扩展、算法可自适应的装备,这一系列装备可以实现大场景、自适应、多维度的动态目标感知,能够看得全、看得清、看得真。以其研制的全景360°的相机为例,它既可以实现全景的感知,还可以实现局部细节的深度获取。这个相机还首次赋予了用户交互性,用户可以任意选择感兴趣的区域,并且可以放大看細节,获取画面局部的信息。这还可以有效应用于自动驾驶、VR等领域。
前面提到的第一代、第二代、第三代计算光场成像技术本质上依然是采用的采、存、算分离的模式,方璐团队还提出了采存算一体的第四代光电计算光场视觉,即使用可控的高维光场传播代替传统的数字硅基电路,这可以将计算速度提升3个数量级,功耗降低6个数量级。除了视觉感知,还可以做更高级的比如显著性检测与分割等系列算法。
基于以上研究,方璐团队还研制建立了PANDA(gigaPixel humAN-centric viDeo dAtaset)数据集。这是国际首个面向10亿像素视频的大范围、多人群、多目标、多尺度检测、识别、跟踪视频数据集,可用于大规模、长期和多对象视觉分析。其视频由一个10亿像素的摄像机捕获,可以覆盖超过1km2超广视场范围,其提供的视频具有高分辨率,可查看细节(每帧像素高达7.98亿)。通过这个数据集,我们既可以看到一个超大场景的多人的运动情况,同时可以实现多人群、多目标的复杂社交行为的理解。例如,识别对象是站着、坐着还是在走路;通过对比分析多个目标在一定时间内的运动状态,可以自动计算识别对象的群体关系,得出多个目标的亲密度 等。