基于域自适应目标检测的关键技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:hai_john
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标检测算法通常假设训练数据和测试数据服从相同的特征分布,但该假设在实际场景中很难达到。很多实验已经证明了域自适应方法可以减小域之间的数据分布差异,以获得更好的检测精度。将域自适应方法应用到目标检测网络中来减小域差异,这种方法称为域自适应目标检测算法。使用域自适应目标检测算法可以用于无监督或弱监督目标检测任务,减少数据标注需要的人力物力。本文使用深度域自适应目标检测算法,利用有标注的源域数据和无标注的目标域数据,学习关于目标域的目标检测器。本文提出了基于类对齐的域自适应目标检测网络,简称为Class-Align网络。在现有的域自适应目标检测网络中,通过不同级别的特征对齐,包括局部特征对齐,全局特征对齐和实例特征对齐,使网络学习产生源域和目标域的一致性特征表示。Class-Align网络主要改进了实例特征对齐部分,将网络产生的实例候选框参照类别进行各自的特征对齐。参照类别的对齐为条件分布对齐,它代替了原本的边缘分布对齐,减轻了不同类别特征对齐造成的负迁移,实现了更鲁棒的域自适应。在训练过程中,源域数据有标注,可以得到实例候选框的类别,而目标域数据没有标注信息,因此需要获得伪标签来表示目标域实例候选框的类别。随着网络训练,源域和目标域能够产生更相近的特征分布,这种情况下,源域类别分类器能够在一定程度上对目标域候选框的类别进行预测,即可得到目标域实例的伪标签。本文在两种应用场景下对Class-Align网络进行测试,验证了方法的有效性。本文提出了基于去雾的域自适应目标检测网络,简称为Dehaze-Align网络。在有雾天气中,灰尘和其他干燥颗粒降低了空气的清晰度,导致有雾天气下拍摄的图片视觉质量较差。这种情况下使用域自适应目标检测网络,检测难度不仅在于源域和目标域之间的分布差异,也在于有雾的目标域能见度太低导致的难以识别问题。本文中的Dehaze-Align网络将图像去雾网络与域自适应目标检测网络结合,设置晴朗天气场景下的图片为源域,有雾天气场景下的图片为目标域,将源域和目标域的去雾后图像与去雾前图像平均,输入域自适应目标检测网络中。Dehaze-Align网络不仅能够减轻图像能见度太低造成的难以识别问题,而且能够消除只对目标域图像去雾造成的风格不一致问题,还能够能减少由于去雾网络造成的部分图像细节损失。利用Cityscapes和Foggy-Cityscapes数据集在三种能见度下进行了实验,验证了Dehaze-Align网络的有效性。本文从不同角度改进了域自适应目标检测网络,提出了两个网络模型,Class-Align和Dehaze-Align网络,并分别从客观评价标准和视觉效果验证了其有效性。网络能够利用有标注的源域数据信息,完成无监督的目标域目标检测,应用场景广泛。
其他文献
随着智慧教育的不断发展,自动判卷已经成为未来的一种趋势,而作为智慧教育的入口,OCR识别也越来越受到研究者们的重视。其中作为OCR识别系统中的手写体数学公式识别一直因为其复杂多样的二维结构,导致其研究进展缓慢。本文以数学公式的二维结构为着手点研究数学公式的识别,并进一步研究表达式一致性判别的相关问题,最终构建了一个初中数学填空题自动判卷系统。其主要研究内容如下:对于数学公式识别,本文采用编码器-解
行人重识别是在图像库中检索与查询图像具有相同身份的行人图像。目前,行人重识别在智慧城市、刑侦取证、社会安全等领域有着广泛应用。然而,行人重识别需要依赖大规模的有标记的数据集来训练模型,而数据标注的高成本使得基于监督学习的方法难以扩展到现实应用中。因此,如果能在不使用数据标注的情况下,将在其他数据集中训练的模型直接迁移到新的数据集中,将会对极大促进行人重识别技术的商业化进展。本文借助域适应、影响函数
地表上行长波辐射是反映地球表面冷暖状况的指标,是地表辐射收支的关键变量之一。在已有地表上行长波辐射产品的估算算法中,地表均被假设为朗伯体,对地表热辐射方向性的回避会给地表长波上行辐射的估算带来很大的误差。对同一地物进行多角度准同步观测是解决热辐射方向性最直接最有效的方法,然而,目前在卫星尺度只有ATSR系列传感器可以提供两个角度(0°和前向55°)的准同步观测。两个角度不足以驱动热辐射方向性核驱动
湘西土家族摆手舞源远流长,是土家族传统文化的重要内容,在各种节日庆典中发挥着重要作用。虽然湘西土家族摆手舞在当地受到部分人的高度关注,但是在传承发展方面却面临着困境,亟待寻求多条路径予以优化解决。本文立足于舞蹈教育层面,在简要介绍湘西土家族摆手舞的基础上,明确了传承和发展湘西土家族摆手舞的重要性,并重点探讨了如何在舞蹈教育过程中传承和发展摆手舞,希望相关举措具备参考借鉴作用。
随着知识经济时代的到来,知识在生产生活中发挥着越来越重要的作用,为了让知识流动起来消除“信息孤岛”现象,基于区块链的知识共享技术已经成为了当前研究重点。在知识共享环境中共享网络通常地域分布广阔,网络状况复杂并且对工作效率和安全性要求较高。但是由于当前区块链共识算法大多基于同步或半同步网络假设,相应的设计难以应对网络延迟类攻击,并且不能同时保证可伸缩性和安全性,使得基于区块链的知识共享技术难以在应用
基于自然语言描述的行人图像检索研究指的是给出一段自然语言形式的文本描述,从行人图像数据库中检索出与文本描述最相符合的行人图像。随着卷积神经网络和循环神经网络的快速发展,计算机已经具备高效提取图像与文本特征的能力。然而,仅仅提高视觉模型或者文本模型的特征提取能力对基于文本的行人图像检索研究的性能提升收效甚微。由于图像和文本特征分属于不同模态,如何减小不同模态之间的语义鸿沟成为提高基于文本的行人图像检
近年来,由于国家层面对境外融资政策的支持,境外发债迅速成为中资企业特别是地方国企融资方式的新宠。分析中资美元债的发行模式、存在的潜在风险及应对措施,具有现实指导意义。
文本情感分类是一个自然语言处理领域中的常见问题。随着大数据时代数据规模的爆炸式增长,用户在互联网的使用中积累了大量的文本数据,如何从文本中有效提炼出用户的情感倾向成为了如今自然语言处理领域的一大挑战。而文本情感分类方法作为处理该问题的有效方法之一,也因此得到了研究者们的广泛研究。现有的文本情感分类方法主要使用神经网络相关技术及结构以提取到原始文本中的深层特征信息,进而根据提取到的特征完成文本情感倾
泛娱乐产业发展如火如荼,视频压缩作为基础业务,发挥着极其重要的推动作用。视频压缩的核心技术不断更新,但人们对视频的要求不断提高,有限网络带宽与超高视频码率之间的矛盾仍是未来很长一段时期的研究热点。码率控制与率失真优化技术作为视频编码端优化技术,不可或缺。视频转码能力作为视频服务提供商的硬实力的象征,长期以来各大厂商不遗余力地研发提升。为此,本文围绕多路并行码率控制、率失真优化和视频转码三项内容展开
人体动作识别通过分析人体运动数据来判断人体动作的类别,是典型的多分类任务。它是行为分析和理解的重要基础和前提,在人机交互、智能监控、智能运动、医疗保健等领域具有广泛应用,近年来已成为了计算机视觉领域的热门研究方向。根据人体动作的信息载体不同,人体动作识别可以分为视频动作识别和骨架动作识别。前者的信息载体是连续的图像序列,后者则基于光学估计、深度相机、动作捕捉设备或三维姿态估计算法等得到的关节三维坐