【摘 要】
:
现如今用于立体匹配的深度学习算法都存在网络结构复杂、消耗高的问题。为解决此类问题,提出了一种参数量只有PSMNet一半的立体匹配端到端网络结构。在特征提取模块保留大致框架的同时,减少多余卷积层,并融合空间注意力机制和通道注意力机制来汇聚上下文信息;在代价计算模块通过加大偏移步长减少视差计算输入的视差维度,使视差计算的参数量和消耗大幅度降低;在视差计算中将匹配成本特征体的输出进行多视差预测;并在L1
论文部分内容阅读
现如今用于立体匹配的深度学习算法都存在网络结构复杂、消耗高的问题。为解决此类问题,提出了一种参数量只有PSMNet一半的立体匹配端到端网络结构。在特征提取模块保留大致框架的同时,减少多余卷积层,并融合空间注意力机制和通道注意力机制来汇聚上下文信息;在代价计算模块通过加大偏移步长减少视差计算输入的视差维度,使视差计算的参数量和消耗大幅度降低;在视差计算中将匹配成本特征体的输出进行多视差预测;并在L1损失函数的基础上加入交叉熵损失函数,在消耗降低的同时保证了模型匹配精度。在KITTI数据集和SceneF
其他文献
针对复杂自然环境下稠密聚集的荔枝花无法使用目标检测、实例分割方法识别的问题,本文提出一种深度语义分割网络识别荔枝花、叶像素并实现分割的方法,为智能疏花奠定视觉基础。首先在花期季节于实验果园拍摄荔枝花像,然后制作标签,并进行数据增强;接着构建深度为34层的ResNet主干网络,在此基础上加入稠密特征传递方法和注意力模块,提取荔枝花、叶的特征,最后通过全卷积网络层实现荔枝花、叶分割。模型的平均交并比(
聚焦评价是根据离焦序列图像搜索并获得最优像点位置的数值分析方法,其分辨力直接决定三维聚焦形貌恢复技术的重建精度。本文以空域拉普拉斯算子与频域离散余弦变换为基础,提出一种联合二者聚焦评价结果的高分辨力聚焦评价方法。首先,使用离散余弦变换算子对图像进行聚焦评价,将拉普拉斯算子聚焦评价值对称变换的结果作为权重因子;然后,使用权重因子对离散余弦变换评价值进行修正,以增加对图像聚焦特征的响应、抑制对图像离焦
目的 为了实现跨摄像机区域多人脸图像跟踪的目的。方法 本文提出了一种基于双三分支孪生网络(DTN)的跨摄像机跟踪网络。具体方法是应用Chinese Whisper人脸聚类算法将同一个行人的人脸图片聚类,并根据人脸聚类的结果通过智能监控确定被捕捉的目标人脸。通过改进FaceNet网络的网络结构和训练函数实现行人人脸的精确跟踪。结果 在LFW数据集上训练DTN,通过边缘样本挖掘损失(MSML)和焦点损
超声成像检测技术具有检测结果直观等优势,是无损检测领域未来的主要发展方向之一。相比传统超声检测方式,激光超声因具有非接触式的特点成为重要检测手段。时间反转成像法可实现时间和空间的自适应聚焦,在非均匀介质中对目标的定位和检测具有广阔前景。本文介绍了以时间反转法为主的几种典型超声成像方法,对比分析不同成像算法的结果,介绍了超声成像领域常用仿真软件,以激光超声为切入点对比常规超声给出了现代超声检测技术和
由于冬季雾霾的影响,室外图像通常会失去对比度和保真度,针对大多数去雾算法对含有大面积天空区域的图像去雾效果不佳,提出了一种改进的暗通道先验去雾方法。首先,根据图像梯度信息分割出天空区域,在天空分割的基础上,结合大气光参考像素的高亮度和平滑性设定判别公式,合理地估计大气光值。其次,根据暗通道值不同,采用分段线性函数对可调参数进行动态修正,解决过度去雾造成的局部阴影。然后,将亮通道模型和改进的暗通道先
目的 本文提出了一种基于2D转3D骨架的实时检测二分支子网络,分别实现2D骨架关键点3D估计和2D、3D骨架特征融合的人体3D动作识别。方法 具体方法分为检测、估计和识别三个过程。检测过程采用OpenPose框架实时获取视频中人体骨架的2D关键点坐标。在2D转3D骨架估计过程中,设计了一种具有难样本对输入和反馈功能的孪生网络。在3D动作识别过程中设计一种2D、3D骨架特征二分支孪生网络完成3D姿态
Vi Be算法检测首帧中的运动目标时,常导致运动目标在初始位置停留时间过长并产生伪前景,使得检测结果的准确性有所降低。针对这一问题,对Vi Be算法进行改进,首先通过选择颜色和空间位置相近的像素点作为样本集去初始化背景模型,并使用熵值法去判断颜色和空间位置在相似程度函数中的权重。其次在分类时基于迭代法确定自适应阈值,以增强在不同条件下的分割精度。最后结合帧差法的判定结果在二元指数分布模型中确定背景
为了解决观看视角与亮度的相互制约关系,设计了一种基于渐变线光源的集成成像3D显示器,通过设置渐变线光源中每列线光源的宽度,优化微图像阵列中每列图像元的成像光路,建立了3D成像模型,通过几何光学推导了观看视角以及亮度的计算公式;研制了基于渐变线光源的集成成像3D显示实验装置,通过实验验证了可以在保持观看视角的前提下将3D图像的亮度提高为传统集成成像3D显示的4.5倍。
计算机断层扫描技术(Computed Tomography, CT)在胃部疾病的早期筛查、临床诊断、术前预测、术后评估等方面发挥重要作用,是医生诊断胃部疾病的重要依据。针对胃部组织形变大结构复杂,难以精确地对病灶进行分割和T分期的问题,提出了一种多任务卷积神经网络MAA-Net。这种新型的算法包含两条主线:一条主线在多输入的U型结构中进行胃部肿瘤的分割;另一条主线采用密集空洞卷积模块提取深层的特征
随着网络视频的爆炸式增长,视频记忆度成为热点研究方向。视频记忆度是衡量一个视频令人难忘的程度指标,设计自动预测视频记忆度的计算模型有广泛的应用和前景。当前对视频记忆度预测的研究多集中于普遍的视觉特征或语义因素,没有考虑深度特征对视频记忆度的影响。文章着重探索了视频的深度特征,在视频预处理后利用现有的深度估计模型提取深度图,将视频原始图像和深度图一起输入预训练的ResNet152网络来提取深度特征;