基于姿态不变性的目标细分类方法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:xixihahawotiana
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标的细粒度分类技术已经成为交通监控系统中的关键一环,被应用于车辆目标的实时车型识别任务。针对车辆目标的图像,细粒度分类算法需要在车辆目标这个大类别中,对其中数百个子类别进行细粒度分类,识别出不同的车型信息。虽然在理想环境中,只需要检测单帧图像中的车辆号牌即可通过后台查询得到具体的车型信息。但在复杂多变的环境条件与车辆号牌污损情况下,无法直接得到车辆号牌信息,因此不能保证精准车型信息的有效获取。目前,目标细粒度分类算法主要包括通用目标的细粒度分类算法和车辆目标的细粒度分类算法。一方面,通用目标的主流细粒度分类算法利用了区分度较强的局部区域特征来提升细粒度分类精度,但没有专门针对车辆目标进行优化,在车辆目标的细粒度分类任务上应用性较差。另一方面,车辆目标的主流细粒度分类算法结合了车辆目标的三维结构信息,对局部组件特征进行提取并用于细粒度分类。虽然在一定程度上改善了车辆目标的细粒度分类效果,但这一方法依旧存在三维结构模型标注成本较大和目标姿态匹配估计困难这两大问题。针对这些问题,本文提出一种基于姿态不变性的目标细粒度分类算法。对于车辆目标的细粒度分类任务,本文将其分为两个相关的子任务,分别是车辆目标姿态估计子任务与细粒度分类子任务。本文算法将先对车辆目标的三维标定框进行估计,再通过三维标定框对车辆目标的姿态进行归一化操作,并在姿态不变的基础上完成车辆目标的细粒度分类任务。归一化图像的姿态不变性能够有效降低姿态变化所产生的类内差异,有助于提升细粒度分类性能。因此本文主要的创新点包括车辆目标三维标定框生成方法与车辆目标姿态归一化方法:(1)本文先设计了一个基于U-Net网络的三维标定面色块图生成网络,并改进得到一个基于双U-Net特征融合网络的三维标定框关键点生成算法。通过关键点热图提取对应的关键点坐标,用以估计车辆目标姿态。这一方法不需要二维标定框信息与车辆轮廓信息作为输入信息,能够直接通过车辆目标图像端到端地生成三维标定框。同时,本文算法在两个U-Net子网络之间添加了跨网络的跳跃联接结构,可以有效融合不同网络间的共享特征,进一步提升生成效果。实验证明,相较于现有其他三维标定框生成方法,本文提出的三维标定框生成算法在准确性和鲁棒性上均有明显提升。(2)本文利用生成得到的三维标定框提取车辆目标的三个标定面,使用透视变换方法将每个面归一化到一个二维平面中,以此完成车辆目标的姿态归一化操作,有效降低了因姿态变化所造成的类内差异。在此基础上,本文还提出了一种姿态归一化的改进方法,通过增加一个透视变换后的斜面用于进一步矫正车辆目标的正面姿态。这一改进方法更符合车辆目标的实际结构,进一步改善了姿态归一化效果。最后使用主流的分类网络对归一化后的图像进行分类,即可完成基于姿态不变性的车辆目标细粒度分类任务。本文所提出的基于姿态不变性的目标细粒度分类算法,在无需任何先验姿态信息的情况下,能够直接通过车辆目标图像端到端地实现姿态估计,并利用改进后的姿态归一化方法在姿态不变的基础上完成车辆目标细粒度分类任务。在Box Cars21k数据集与Box Cars116k数据集上,本文的三维标定框生成方法同前沿的生成方法相比有着更优异的表现与更强的鲁棒性,在关键点生成精度上分别提升了9.35%与7.15%。本文算法在最终的细粒度分类准确率指标上,相比基于生成数据的现有最佳结果提升了1.81%与1.45%。
其他文献
水下智能机器人(AUV)已被广泛地应用于海洋资源开发及水下工程作业,视觉是目前最重要的环境探测技术之一,卷积神经网络广泛运用于目标检测。基于Le Net-5,本文提出了一种适用于水下训练集的卷积神经网络(CNN),并通过树莓派完成图像识别。AUV通过树莓派控制摄像机和水下照明灯,通过Open CV完成水下环境的图片采集;就卷积神经网络的主要网格结构卷积层、池化层、激活函数和梯度下降法进行了理论推导
伴随无线通信技术发展,产生了海量的无线设备、多样的设备种类、丰富的无线业务类型,于是通信、多媒体等业务的需求量随之高速增长,无线通信网络需要有更强的数据传输与处理能力来服务庞大的需求。无线网络对作为传输载体的频率资源的需求量急剧增加,而可用于无线通信的频谱资源有限,提升频谱效率成为无线通信未来发展的重要研究目标。传统无线通信采用频分双工或时分双工方式进行传输,全双工通信支持收发信机在同一频带内同时
毫克级扑翼微飞行器因尺寸微小、灵活机动,可以完成大型飞行器无法完成的任务而具有广阔的应用前景。其基于高频拍翅的升力机制具有振动非线性、多自由度力和力矩耦合等特征,有效升力/力矩为mN/μNm量级,难以用现有力/力矩传感器准确测量,给扑翼微飞行器的测试与控制带来一定的困难。为了解决这一问题,本文设计了面向毫克级扑翼微飞行器的多自由度力-力矩测试系统,该测试系统可以同时测量毫克级扑翼微飞行器所产生的力
随着科学技术的发展,物联网技术逐渐走进大家的日常生活,从智能家居、安防监控到自动驾驶、环境监控,互联网时代下的物联网正在悄无声息地改变着人们的生活方式,人们对于物联网的需求也日益增大。物联网的发展离不开基础网络设施的发展和建设,而作为一个传统的发展中国家,在中国的农村地区和部分偏远地区,基础设施建设不完善,这部分的人口享受物联网带来的便捷和物联网经济带来的红利就变得艰难。因此,寻求一种适用于中国农
认知科学和神经影像学领域的研究已经表明,情绪是一种极为复杂的行为和生理反应,它涉及到大脑中多个区域的回路。然而,目前在基于脑电信号和眼动数据的多模态情绪识别研究中,通常采用的是基于单通道分析的脑电特征提取方法,而未考虑到情绪所对应的脑功能连接网络。本文主要基于脑电信号来探索情绪所对应的脑功能连接网络模式。我们提出了一种与情绪相关的关键子网络选择算法,并提取了三种脑功能连接网络特征:连接强度,聚类系
为了在有限的资源上实现更多的连接,提高系统的频谱效率,非正交多址接入(Non-orthogonal multiple access,NOMA)技术被确定为第五代移动通信系统候选空口技术之一。作为码域的NOMA技术,多载波低密度序列(Multi-carrier low-density signature,MC-LDS)技术和稀疏码多址接入(Sparse code multiple access,SC
数据增强作为一种简单有效的方法被广泛应用以提升模型泛化能力,特别是在训练深度神经网络时。近年来研究人员们提出了不少新的数据增强方法进一步提升分类任务的准确率,其中主要以两类为首:Mixup这类对两张图片进行线性插值的方法,以及AutoAugment这类搜索最佳数据增强策略的方法。在本文中,我们针对Mixup中线性假设的不合理性,提出了一种基于特征空间距离的自监督方法,该方法要求原始图像和生成图像在
图像标题生成是自动给图像生成一个描述性标题,这是一个结合计算机视觉和自然语言处理的重要研究方向。图像标题生成可以辅助图像搜索和视频搜索,有着巨大的应用价值。当前主流的方法是基于注意力机制的图像标题生成。虽然图像标题生成已经被研究了很多年,但是现有方法生成的标题和人类给出的标题相比还是有很大的差距。本文主要是对基于注意力机制的图像标题生成进行改进,提高模型生成的标题的质量。本文在两个方向上对图像标题
随着流媒体业务的飞速增长,移动数据流量持续呈现井喷式增长的趋势。为了缓解通信网络的压力,采用缓存技术卸载数据流量行之有效。而且,用户协作缓存将大大降低缓存内容放置的成本。为此,本文对基于反向拍卖的无线业务协作缓存技术进行了研究。在本研究中,我们考虑用户终端(UTs)协作将无线热点业务缓存到智能路由中继(IRR)侧的方案。为了有效激励用户参与协作缓存任务,本文构建了基于反向拍卖的协作缓存模型,其中,
太赫兹成像是以太赫兹辐射作为信号源的成像技术,有低光子能量和高透明度的优点,因其非电离的特点被广泛应用于安检、生物诊断、电子元器件认证等领域。太赫兹辐射的波长较长,因此成像分辨率较低,图像质量也较差,需要进一步处理才能应用与实际场景中。本项研究探索了有源主动反射式成像的太赫兹图像的噪声建模和去噪算法。经过对太赫兹噪声的统计分析,我们发现太赫兹噪声符合一种广义的高斯分布,即-稳定分布,它能够描述非对