【摘 要】
:
SSD(Single Shot Multi-Box Detector)是目前广泛应用于行人检测的神经网络算法,为了提高其检测精度和检测速度,对SSD算法进行了有效改进(改进后的算法称为XSSD-P)。首先,选择Xception网络作为XSSD-P算法的骨干网络并重新选择用于预测的特征层;然后根据行人外形尺寸的特征设计了多尺度卷积核和基础锚框,并将二者耦合,基础锚框通过调节自身大小得到锚框(anch
论文部分内容阅读
SSD(Single Shot Multi-Box Detector)是目前广泛应用于行人检测的神经网络算法,为了提高其检测精度和检测速度,对SSD算法进行了有效改进(改进后的算法称为XSSD-P)。首先,选择Xception网络作为XSSD-P算法的骨干网络并重新选择用于预测的特征层;然后根据行人外形尺寸的特征设计了多尺度卷积核和基础锚框,并将二者耦合,基础锚框通过调节自身大小得到锚框(anchors)用于位置回归;最后再使用深度可分离卷积代替常规卷积在特征图上进行预测,实现了行人的有效检测。在I
其他文献
为了开发一种检测精度高,检测速度快的圆检测方法,研究者们进行了大量的研究。然而,现有的圆检测方法都依赖于边缘检测器获取的边缘图进行计算,边缘图不仅包含大量无效边缘,而且将有效的圆弧边缘也混杂为一体,不利于多圆检测。受到卷积神经网络在其他领域成功的启发,本文提出一种基于卷积神经网络的圆检测方法。本文方法利用目标检测技术和语义分割技术将多圆检测任务划分为多个单圆检测任务,并且能准确地提取圆的边缘信息(
识别多尺度目标是检测任务中的一项挑战,针对检测中的多尺度问题,提出自适应上下文特征的多尺度目标检测算法。首先,针对不同尺度的目标需要不同大小感受野特征进行识别的问题,构建了一种多感受野特征提取网络,通过多分支并行空洞卷积,从高层语义特征中挖掘标签中的上下文信息;其次,针对不同尺度目标的语义特征出现在不同分辨率特征图中的问题,基于改进的通道注意力机制,提出自适应的特征融合网络,通过学习不同分辨率特征
在视频理解任务中,为了减少行为检测任务中的数据标注成本同时提高检测精度,本文提出一种基于骨骼数据的弱监督视频行为检测方法,使用视频级的类别标注对行为检测网络进行弱监督训练。本文以二维人体骨骼数据和RGB图像数据作为网络输入,利用循环神经网络从骨骼数据中提取时域信息并送入全连接层输出所需的特征。骨骼数据提取的特征与RGB数据提取的特征分别传入注意力网络生成相应的权重,用来生成加权特征与加权时序类别激
针对机载飞机视频摄取与监视中,由于背景稀疏和前景的大幅度快速运动,造成实时稳像算法存在的画面不稳定的问题,提出了自适应Shi-Tomasi机载视频空中目标实时优化稳像算法。首先根据提取特征点分布自适应地改变Shi-Tomasi角点检测~([1])阈值,解决单一阈值不能适应空中复杂稀疏背景特征点提取的问题。然后构建带约束的实时优化算法,计算平滑的视频路径,解决基于滤波的算法缺少约束导致画面偏移过大的
图像描述任务旨在利用自然语言描述出图像包含的内容, 在计算机视觉和自然语言处理研究领域中图像描述任务受到学术界广泛的关注. 本文针对基于编码器-解码器的图像描述框架在生成自然语言描述过程中图像特征不能充分利用, 图像特征和文本语义信息之间关联性研究存在不足, 提出一种应用空间与视觉注意力机制的图像描述方法. 本文通过对空间注意力模块进行改进来增加注意结果和查询之间的相关性, 将改进的空间注意力机制
针对移动端的计算资源和存储空间有限等问题,本文提出了一种轻量级的三维人体重建方法。首先,采用DeepLabV3+网络对人体正面和侧面图像进行分割,获得人体净身轮廓。其次利用SMPL人体模型对三维人体进行参数化表示,并对SMPL模型的正面和侧面进行投影,获得二值轮廓作为数据集。然后,构建并训练一个教师网络以预测二值轮廓图的SMPL参数。之后,构建一个轻量级的学生网络,通过知识蒸馏的方式,利用教师网络
骨架数据是通过对动作的空间几何位置进行编码获取, 可以避免冗余背景信息的干扰, 是动作识别领域常用的数据类型之一. 现有的有关骨架数据的动作识别综述主要分为经典的骨架数据表征和基于深度学习的骨架动作识别应用. 相较于传统欧氏度量下的识别方法, 流形为更好的研究非线性结构提供了重要数学工具. 然而, 目前仍缺乏利用流形假设对骨架数据进行动作识别的相关总结. 因此, 本文从骨架表示、轨迹时间对齐、动作
针对在自然场景中,由于遮挡、视角限制和操作不当等问题,导致传感器获取的植物或器官点云不完整,提出了一种基于多尺度特征提取模块结合点云金字塔解码器(Multi-scale feature extraction model with point cloud pyramid decoder,MSF-PPD)的叶片形状补全网络。首先,采用多尺度特征提取模块实现不同维度特征信息的全局提取和融合,其次,通过点
本文提出一种可靠的数字水印技术,首次对水印图像采用半色调和四叉树技术进行预处理,将内容的位置信息提取出来做为实际的嵌入值;载体图像进行离散小波变换(DWT),对高频子图进行8×8分割和最佳离散余弦变换(DCT)操作;信息嵌入到DCT变换矩阵失真最小的位置。在提取水印时,通过系数矩阵最佳位置数据对的比较规则,准确提取出水印内容的位置信息,进而恢复水印图片。仿真实验分析表明,该算法不仅能够提高水印的有
人群计数旨在准确地预测现实场景中人群的数量、分布和密度,然而现实场景普遍存在背景复杂、目标尺度多样和人群分布杂乱等问题,给人群计数任务带来极大的挑战。针对这些问题,提出了一种融合通道与空间注意力的端到端人群计数模型CSANet。该模型采用多层次编解码网络结构提取多尺度语义特征,并充分融合空间上下文信息,以此来解决复杂场景中行人尺度变化和分布杂乱的问题;为了降低复杂背景对计数性能的影响,在不同层次特