基于深度学习的立体匹配关键技术研究及应用

来源 :四川大学 | 被引量 : 0次 | 上传用户:c1133186
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当下,二维人脸识别已广泛应用于生活中,如刷脸支付、考勤管理等,但其存在防伪性差、误识率高等缺点。故人脸识别的研究重心逐渐转向三维人脸识别,其关键基础在于三维人脸模型的采集。其中,基于双目视觉的三维采集由于建模速度快、精度高成为该领域的热点,包含被动测量和主动测量。前者在自然光源下捕获目标图像,通过匹配立体图像中对应的点以恢复三维信息,如何提高立体匹配的精度是其中的关键。然而,被动三维测量难以满足高精度建模的需求,而基于条纹结构光的三维测量技术通过投射“相位特征”编码目标表面,经相位匹配可实现高精度建模。相位展开是该技术的关键,相位特征的精度决定了主动三维建模的精度。传统立体匹配算法的匹配结果都参差不齐,尤其在弱纹理区域、反射表面等,由于无法提取有效的特征而导致误匹配;传统的相位展开算法在欠抽样、相位不连续区域等问题区域难以准确提取相位特征,因而无法准确地进行相位匹配。无论是主动还是被动立体匹配中,在问题区域都存在由于无法准确提取有效特征而导致误匹配的情况。由于神经网络可提取健壮的特征,因而基于深度学习的立体匹配算法成为该领域的主流。本文针对上述问题,主要研究工作及贡献如下:(1)针对被动立体匹配在弱纹理区域、反射表面的误匹配问题,提出基于双注意力机制的立体匹配算法。该算法在特征提取网络加入双注意力模块,以提取丰富的语义特征;并在代价聚合网络使用改进的hourglass模块捕获全局上下文信息,以在网络深层恢复空间位置信息,从而准确地预测视差,尤其是在弱纹理区域、反射表面。该算法在Scene Flow数据集上的MAE值为0.87px;在KITTI2015数据集上的三像素误差为1.80%;在face1人脸数据集上也取得了较好的匹配结果,其匹配精度优于SGM、CFPNet算法等,可将该算法用于室外场景的三维人脸采集。(2)针对相位展开算法在欠抽样、相位不连续区域相位展开困难的问题,提出基于多尺度融合的相位展开算法。该算法用编码解码结构融合多尺度的特征,并在解码网络嵌入语义子网络以捕获空间语境信息,从而快速、准确地提取相位特征,尤其是在欠抽样、相位不连续区域;与需多帧条纹图像(>=6)的时间相位展开算法相比,本文算法仅需三帧条纹图像即可取得与时间相位展开算法相当的相位精度。将该算法应用于face2人脸数据集上,其RMSE值为0.0387rad,SSIM高达0.9850,可满足高精度三维人脸采集的需求;在mask数据集上RMSE值为0.0273rad,SSIM值为0.9793,由此可证明该算法具有较好的泛化性。(3)构建了两个人脸数据集(face1、face2)和一个面具数据集(mask)。face1包含400组样本,每组样本包括双目立体图像对和视差图真值,用于立体匹配算法的训练与测试;face2包括50000组样本,每组样本包括截断相位和连续相位真值,用于相位展开算法的训练及测试;mask数据集中包括十二生肖、十二星座面具等,共100组样本,每组样本包括截断相位和连续相位真值,用于测试相位展开算法。本文基于深度学习的方法研究立体匹配中的关键技术。提出一种立体匹配网络为被动立体匹配提取健壮的纹理特征,可满足室外场景下三维人脸采集的需求;提出一种相位展开网络为主动三维建模提取精确的相位特征,可满足高精度三维人脸采集的需求。
其他文献
随着美国成功勘探及开发出页岩气,世界各国都兴起了一股研究页岩气的热潮。我国地质资源丰富,但地形条件复杂,不同地域的构造演化、沉积环境以及热演化过程都不相同,使得页岩气的形成过程和富集程度存在较大差异,所以勘探技术仍是页岩气开发过程中的关键因素。通过使用图像分割技术对深层页岩SEM图像进行分割处理,进而为勘探人员提供辅佐信息,有助于提高勘探效率。为了提升分割精度,本文对深层页岩SEM图像分割进行了深
近年来,随着计算机性能的提升和深度学习的迅速发展,计算机视觉领域迎来了蓬勃发展。头部姿态估计作为基于生物特征的计算机视觉领域的一个分支,是众多学者的一个研究方向。头部姿态估计是指从二维人像图中推断出人在三维空间中的头部朝向的过程。这个课题在很多领域都具有广泛的应用场景,例如驾驶员监测系统、虚拟现实、安防监控系统、学生课堂注意力估计等等。目前,头部姿态估计仍然面临着诸多挑战,例如精度较低、模型泛化能
白内障是致使视力受到损害的主要原因,也是导致失明的严重眼科疾病之一,且白内障疾病发病率较高。但在偏远地区,基层医疗机构的专业眼科人才极度缺乏,无法诊断各类眼科疾病。运用人工智能的方式辅助医生检测白内障,搭建远程白内障超声影像诊断系统,能够有效缓解因诊断不及时,就医困难等原因引发的严重后果。近年来,基于深度学习(Deep Learning,DL)方法的自动化系统显著提高了白内障的检测。然而,白内障自
近年来,随着互联网和移动终端的迅速发展,各大互联网公司为抢占有限的用户资源,推销自己产品和服务,纷纷采用各种推荐算法进行信息或物品推荐。序列推荐算法作为推荐算法领域的子领域,在电商购物平台应用尤其广泛。序列推荐算法的主要任务是通过用户与平台的交互序列,得到当前序列偏好,进而预测用户下一次可能交互的物品,提供给用户合适的推荐列表。当前,研究人员开始将门控图神经网络应用于序列推荐当中,但是现有研究工作
BP神经网络(BPNN)被广泛称为现阶段最受欢迎的神经网络之一,它是一种监督式学习的网络[1]。BPNN通过学习训练样本输入和输出的关系进行建模,它对网络权重进行连续调整,以达到减小预测值和真实值差异的作用。它只需要较少的计算和训练,就能隐式检测因变量和自变量间的关联[2],从而计算变量间的复杂关系,对不可见数据进行良好的泛化和预测。但随着大规模数据集在各行业的出现,BPNN逐渐暴露出缺陷与不足,
意图识别任务本质上属于自然语言处理中的文本分类任务。意图识别任务按场景可分为口语意图识别和文本意图识别。口语意图识别使用语音识别输出的文本作为输入,因此口语意图识别的准确率会受到语音识别准确率的影响。通常,语音识别的准确率会受到环境噪声的影响,一般采用语音增强和语音降噪可以解决大部分问题。然而说话人口语表述方式的多样性以及每个人发音的独特性使得语音识别系统的识别内容距离用户的真实表述内容还存在一定
随着神经网络算法的不断发展和突破,神经网络算法越来越广泛的被应用在图像识别,自动驾驶,语音识别等诸多领域。卷积神经网络是从人工神经网络中派生出来的一种神经网络,它非常适合于图像的平移,比例的缩放等形式的图像变化操作。一方面,在卷积神经网络前向推理计算过程中,存在着复杂计算和高带宽访存的问题,使用通用处理器平台实现深层卷积神经网络前向推理计算过程的方法,无法保证提供足够的计算能力。另一方面,尽管使用
随着计算机图形学技术的蓬勃发展,越来越多的虚拟现实产品被运用到军事、航空、航天和娱乐领域,为这些领域的生活生产带来极大的便利。而基于沉浸式投影系统的虚拟现实技术由于其成本低、沉浸感强、空间显示范围广和适用性强等优势,得到了越来越广泛的研究和运用。这类虚拟现实系统一般由投影仪和投影屏幕构成,为了提升虚拟现实场景的沉浸性和真实性,常常采用曲面形式的投影屏幕。目前,基于沉浸式投影系统的虚拟现实技术有着广
近年来,随着通信技术的高速发展和移动终端设备的大量普及,人们越来越依赖移动设备进行工作和生活,移动应用程序也就变得越发重要。对于移动应用程序(Application,App)开发方来说,要想让App在充斥着大量同类产品的应用市场中脱颖而出,就必须使其具备丰富的图形用户界面(Graphical User Interface,GUI)和令人愉悦的用户体验(User Experience,UX)。那么如
深度学习是自动驾驶,人脸识别,生物医学图像处理以及机器人视觉等研究领域的突破性技术。虽然基于深度学习的神经网络模型以及相应的训练算法在许多大型的公开数据集中都有显著的表现,但是其往往都受限于昂贵的硬件设备,而无法应用在类似手机这种小型的设备中。知识蒸馏可以通过以学生网络学习教师网络的方式,使小规模的神经网络也能有着和大规模网络相似的效果,它相对于其他的模型压缩算法适用场景更加广泛。因此,本文重点研