【摘 要】
:
目标检测是计算机视觉领域的共性基础问题,在公共安全、智能制造、智能交通等诸多领域,具有重要的理论意义和应用价值。然而,实际应用场景通常包含目标种类数目繁多、尺度变化大、背景噪声干扰以及模态数据差异等复杂分布特性,导致目标检测面临目标漏检、类别混淆、定位困难等关键问题。研究有效的目标检测模型成为计算机视觉领域和多媒体应用的迫切需求。因此,本文围绕上述问题开展视觉目标检测关键技术研究,以构建高效的目标
论文部分内容阅读
目标检测是计算机视觉领域的共性基础问题,在公共安全、智能制造、智能交通等诸多领域,具有重要的理论意义和应用价值。然而,实际应用场景通常包含目标种类数目繁多、尺度变化大、背景噪声干扰以及模态数据差异等复杂分布特性,导致目标检测面临目标漏检、类别混淆、定位困难等关键问题。研究有效的目标检测模型成为计算机视觉领域和多媒体应用的迫切需求。因此,本文围绕上述问题开展视觉目标检测关键技术研究,以构建高效的目标检测模型为总体目标,从目标特征提取、检测网络结构和网络学习优化三方面进行了研究。同时,对不同场景下的图像与自然语言结合的多模态目标检测问题进行了探讨。具体研究内容和主要创新点可概括为以下几个方面:(1)针对目标区域内背景噪声干扰而导致的语义类别混淆问题,开展了基于多级上下文特征的目标检测研究。该方法首先提出了分割动态编解码网络,为每个目标提供精细的像素级分割信息。然后收集了局部对象区域、非局部对象区域以及周围环境等多种距离范围的上下文信息,并建立不同信息之间的语义依赖关系。最后利用这些多级上下文信息,有效地挖掘分割中辅助特征,抑制目标区域内的噪声干扰,从而提升多类别对象的目标检测性能。(2)针对目标大小、宽高比差异大所带来的目标漏检与误检难题,开展了基于多尺度门融合特征的目标检测研究。该方法首先构建了门融合模块,通过计算相邻尺度通道的语义重要性,自适应控制不同尺度特征的信息流,从而为每个目标对象分配适宜的尺度特征。同时,基于当前对象的宽高比,灵活地选择与其相关的形状区域特征,从而避免固定区域池化导致的目标特征扭曲问题。该方法能够有效地提升关于不同大小和宽高比对象的目标检测性能。(3)针对视觉目标检测难以适应目标外观变化的问题,开展了基于十字线对象表示的目标检测网络结构设计研究。该方法首先设计了一组灵活且可学习的十字线对象表示,用于有效感知目标水平和竖直方向的特征变化。然后,构建了轴查询的十字线生长模块,沿轴方向查询与当前十字线语义相关的周围邻域像素。同时,结合边界框标注的直接监督,灵活判断十字线的生长方向,以应对视觉场景中目标的外观变化。最后,提出了语义引导的标签分配与解耦回归优化机制,通过选择语义丰富度较高的十字线优化目标,进一步提升了目标检测网络的灵活性与准确性。(4)针对目标边界框位置回归优化困难的问题,开展了基于偏移区间概率的目标检测网络优化准则研究。该方法通过分析现有边界框回归优化问题,巧妙将连续的位置偏移值量化为多个离散偏移区间。然后采用了距离感知的偏移区间分类器,以预测当前样本位置偏移相应的单标签或距离标签分布。此外,提出了期望估计的偏移生成方法,将离散的偏移区间转换为精确的位置偏移值。同时设计了分层聚焦的偏移生成方法,通过逐步细化离散的偏移区间范围,从而提升目标检测输出边界框的定位质量。(5)针对多模态目标检测任务中难以精准关联对象外观细节的问题,开展了基于渐进式可变形对象关联的多模态目标检测方法研究。该方法首先提出了语言感知的可变形对象模型,通过自适应在图像中采样与当前语言相关的对象关键点,以准确映射文本描述的对象细节信息。然后建立了语言与视觉特征之间的双向交互,进一步增强跨模态特征间的语义关联。最后,从局部单词到全局句子,逐级将语言中包含的对象以及对象关系映射到图像中,准确地在图像中定位出语言所描述的目标区域。(6)针对复杂密集场景下跨模态映射的实际需求,首次探索了多模态密集场景的目标检测方向研究。该方法首先构建了更具挑战性的密集场景多模态目标检测数据集(Ref Crowd),其中包含丰富多样的密集场景图像和属性细节信息的文本描述。为应对这一挑战,同时提出了细粒度的多模态属性对比学习模型的解决方案,通过建立属性感知的多模态分解模块,将复杂笼统的图像与语言特征分解为显式的多模态属性特征。最后,设计了细粒度属性对比模块,以有效地区分相似人群间的细微差异,从而实现密集场景中语言与视觉间的细粒度映射,进一步推动目标检测领域的研究发展。
其他文献
以自旋流驱动磁化翻转的非易失性磁性随机存储(Magnetic Random Access Memory,MRAM)是下一代存储技术中的有力竞争者。而随着其在嵌入式存储及单一构架内存结构中的适应性发展,如何进一步降低存储单元驱动翻转能耗,成为MRAM发展中亟待解决的问题。而多铁性材料中铁电性与铁磁性共存,以磁电耦合效应为桥梁,可实现电压对磁性的调控,为电压替代磁场及辅助自旋流调控磁矩实现超低功耗存储
随着无线移动通信技术日新月异发展,通信网络持续扩充着人类活动与社会发展的空间,但地面网络的覆盖范围仍然是有限的。在郊区、山谷、海岛等偏远地区,地面网络基础设施建设费用与维护费用十分昂贵,网络覆盖率低,使得这些地区随用户终端数量增加而日益增长的网络服务需求与落后的网络服务能力之间的矛盾日益显著。为了增强偏远地区的数据服务能力,将基于卫星的天基网络与地面网络深度融合建设天地一体化融合通信网络(Spac
交通是人类社会活动必不可少的要素之一,对地理空间距离的缩短起很大作用,是国民经济和社会发展的先行官。故交通进步不仅对交通本身意义重大,而且能够带动整个社会经济领域的快速发展,对推动社会进程至关重要。近代以降,随着西方列强的入侵,中国发生前所未有的变局。其中带动社会经济发展的交通方式发生了新的变革,由大车道向公路、铁路、航空转变,新式交通工具如轮船、火车、汽车、飞机等先后出现。从地域分布看,逐渐由东
随着互联网行业及其电商平台的持续快速发展,海量的商品选择带来了严重的信息过载问题。推荐系统能够根据不同的用户喜好,从大量的数据中快速找到用户感兴趣的信息,解决信息过载的问题,因此成为应用计算机科学的重要课题之一。传统面向单一物品的推荐系统通常只关注用户对物品的不同喜好,而忽略物品之间的兼容关系。在更多时候,用户不仅关心他们喜欢的物品,同时还希望得到关于搭配物品的推荐。例如,当用户喜欢某一件上衣时,
随着5G通信系统的高速发展,天线作为无线通信系统的眼睛,其小型化、集成化、高频化、低损耗、低成本的要求越来越迫切,而基于低温共烧陶瓷(LTCC)技术的介质天线是解决上述迫切需求的唯一途径,但超低损耗的低温共烧结微波介质材料、LTCC微带贴片天线理论及设计模型、天线温度稳定性是目前国内外这一领域仍待解决的技术瓶颈问题。本论文主要针对5G中频频谱波段(3.3 GHz-3.6 GHz和4.8 GHz-5
柔性电子技术是一种将电子器件或电路制备于可弯曲/可延性基板上的新兴电子技术,具有可弯曲/可延展、成本低、便携性强和质量轻等优势。随着柔性电子技术的发展,面向可穿戴无线通信系统、共形雷达等应用的柔性微波电子器件也获得了更多关注。与硅、砷化镓、碳纳米管等半导体技术相比,氮化镓高电子迁移率晶体管(Ga N HEMT)具有高功率密度和高效率等优势,近年来成为了柔性微波功率器件的研究热点。由于Ga N外延生
水稻是我国三大粮食作物之一,但其生长过程受到多种病虫害的威胁,其中以稻飞虱最为严重。我国发生的稻飞虱种类主要包括褐飞虱和白背飞虱,是我国的一类农作物病虫害,也是亚洲稻区威胁最大的迁飞性害虫。近20年来,稻飞虱在我国华南西南稻区的发生面积大、暴发频率高,造成了较严重的稻谷产量损失。有效防控稻飞虱的前提是大范围高精度的种群动态监测预报。然而由于稻飞虱种群时空动态的复杂性,人们对大尺度下稻飞虱种群动态认
阵列三维合成孔径雷达(Synthetic Aperture Radar,SAR)具有三维空间分辨能力,被广泛应用于环境监测、安检及雷达散射截面积(Radar Cross Section,RCS)测量等军用和民用领域。然而,基于匹配滤波原理的三维成像结果通常有较高旁瓣且易受背景噪声干扰,难以满足高精度成像的要求。基于稀疏重构原理的三维成像算法虽然可以改善图像质量,但是在用于三维稀疏成像时,所需计算时
分布式雷达系统是一种新体制雷达,其将空间内广泛分布的雷达节点,通过组网技术组合为一个有机整体,并以协同的方式对空间信息进行感知与获取。分布式雷达系统具有空间复用性、多自由度等众多优势,是雷达发展的重要方向。对分布式雷达系统的拓扑构型及资源进行优化可以充分利用其分布式探测的体制优势,使系统检测、定位、跟踪等多方面的性能得以显著提升。因此,拓扑构型及资源优化是分布式雷达的关键技术之一,已成为国内外雷达
东北中高纬度地区处于东亚季风边缘地带,发育了大面积泥炭地,对气候变化响应敏感。在湿地生态系统演化、土壤-生态系统共同进化的过程中,磷元素作为重要的营养元素均参与其中。在泥炭地中,有机磷逐渐累积在植物残体中,长期影响土壤磷库及磷形态分配。东北寒冷气候条件和泥炭地厌氧土壤环境使有机磷能够较为稳定的随泥炭层的形成保存在剖面中。不同演化阶段的泥炭地由于植被、土壤环境等原因导致对磷的积累、利用机制差别较大,