【摘 要】
:
视觉理解作为人工智能系统的重要组成部分,在无人驾驶、卫星监测等领域具有重要的应用价值。面对实际应用中的视觉场景复杂性和任务特殊性,如何实现更加精准的多粒度视觉理解是亟待解决的重要问题。针对现有视觉理解在小物体和语义边界区域不够准确的问题,本文以深度神经网络模型为基础,以实际应用为导向,探究不同的上下文建模方法,对视觉理解关键技术中的目标检测和语义分割展开研究。本论文通过挖掘不同任务的上下文信息,提
论文部分内容阅读
视觉理解作为人工智能系统的重要组成部分,在无人驾驶、卫星监测等领域具有重要的应用价值。面对实际应用中的视觉场景复杂性和任务特殊性,如何实现更加精准的多粒度视觉理解是亟待解决的重要问题。针对现有视觉理解在小物体和语义边界区域不够准确的问题,本文以深度神经网络模型为基础,以实际应用为导向,探究不同的上下文建模方法,对视觉理解关键技术中的目标检测和语义分割展开研究。本论文通过挖掘不同任务的上下文信息,提出了一系列创新性的基于上下文建模的深度神经网络模型,实现了从区域级到目标级再到部件级的多粒度视觉内容理解。论文的主要创新性研究成果包括:·在区域级视觉理解目标检测方面,针对现有目标检测算法在小目标检测上的性能不佳问题,提出基于上下文嵌入的目标检测网络。设计了一个上下文嵌入模块以捕获目标的多尺度上下文信息,利用目标邻域上下文建模增强网络关于小目标区域的表征能力。同时,通过提高特征图的分辨率,增强小目标的特征响应,最终实现小目标检测任务的性能提升。此外,为对小目标检测网络进行评估,我们构建了一个新的大规模的毫米波图像隐匿小目标检测数据集,包含超过5万张毫米波图像。在我们收集的数据集以及公开数据集上的实验结果表明,邻域上下文建模的方法可有效提高小目标检测的精度。·在目标级视觉理解语义分割方面,针对当前语义分割方法在语义边界等细节区域分割粗糙问题,提出了一种边缘感知的语义分割网络。通过联合训练边缘检测任务实现边缘上下文建模,利用边缘轮廓作为边界区域的上下文约束指导网络更好地识别不同语义之间的边界。在此基础上,提出了语义上下文建模的后处理网络,将前一网络输出的语义置信图作为语义上下文显式输入到后处理网络,并融合多分辨率的低层特征以捕获来自输入的语义先验,引导网络集中到易混淆区域,进一步提升在细节处的分割精度。实验结果表明,边缘和语义上下文建模的方法能有效提升在边界细节区域的分割精度。·在部件级视觉理解细粒度语义分割方面,提出了局部和全局上下文建模的细粒度语义分割网络。具体来讲,设计了三个网络模块分别对局部细节、边缘轮廓以及多尺度全局信息上下文建模,形成新的细粒度语义分割框架。在多个细粒度语义分割数据集上的实验结果表明,局部和全局上下文建模能够有效提升细粒度语义分割的性能。此外,针对细粒度语义分割中的人体解析任务,考虑到人体部件语义和姿态关键点之间存在共现关系,提出了对人体解析和姿态估计进行交互上下文建模的方法,利用人体解析和姿态估计互为彼此的上下文,实现性能共同提升。在人体解析数据集上的实验结果证明,交互上下文建模的方法能够有效地提升姿态估计和人体解析两项任务的精度。·在细粒度图像内容迁移方面,提出了空间上下文建模的纹理贴图生成网络,结合部件级理解实现纹理细节保留的图像纹理迁移。细粒度图像内容迁移的目的是将源图像中人体部件区域内的纹理内容迁移到目标图像中人体的对应部件区域内。为实现将源图像人体部件的纹理内容迁移到任意视角下的目标人体部件,并保持源图像的纹理特性,本文利用纹理贴图实现对源图像其他视角纹理的推断生成。首先,设计了空间先验图在纹理贴图空间中对人体各个部件内的空间关联关系建模。然后,基于空间先验图,提出了空间上下文建模的纹理贴图生成网络,使得补全视角区域的纹理特性与源图像保持一致。实验结果表明,空间上下文建模可实现纹理细节保留的细粒度图像内容迁移。
其他文献
运营速度200 km/h的中速磁浮是一种服务于城市圈内大流量、高密度客流的新型轨道交通方式,具有广泛的应用前景。为了提升中速磁浮商业运营竞争力,需要在规划和运营阶段,以运行效率和运行能耗最优为目标,研究中速磁浮系统运行策略优化问题。为此,本文探讨中速磁浮运(运行层)、控(列控层)、电(供电层)3个层次的一体化优化策略(即列车运行图、列车目标速度曲线、直线电机控制策略),使中速磁浮列车高效、节能运行
随着信息技术的发展,数字多媒体越来越广泛地出现在了人们的生活中,其中,图像与视频无疑占据了数字多媒体数据的主要部分。由于原始的图像和视频的数字表示需要占据巨大的空间,因此,许多的编码算法被开发出来,用来有效地压缩图像和视频,以便于其存储和传输。然而,随着各种数字表示格式以及各种应用需求的不断增加,数字多媒体信号的存储和传输仍面临着巨大的挑战。本文针对三维视频中多视点+深度的表达格式,以提高虚拟视点
人类活动范围的不断扩张增加了对于地面移动系统的需求,各类无人地面移动系统正发挥着越来越重要的作用。当前,无人地面移动系统已经被广泛应用于资源勘探、物资运输、灾难救援军事侦查与作战等众多应用场景。为克服不同应用场景中的地形与行走工况,移动系统对地形越障性、可靠性与续航能力具有较高的要求。与传统的轮式与履带式移动系统相比,足式移动系统与地面离散接触的特性带来相对独特的行走特性与移动性能。本文以单自由度
用历史制度主义的分析范式,检视老年教育政策的历史变迁与逻辑演变,是解读老年教育政策的一个新视角。改革开放以来,我国老年教育政策从初步探索到体系逐渐形成,呈现多元化和特色化的发展趋势。通过历史制度主义分析框架,采用扎根理论编码方式,梳理我国老年教育政策文本,审视我国老年教育政策的逻辑演变,可以发现,老年教育政策的发展受到教育实践定位、宏观制度环境、内生动力机制、教育发展理念、主导强化机制和关键时间节
具有纳米层状结构的三元化合物MAX相陶瓷由于其块体材料所表现出的高温氧化行为、高损伤容限和抗热冲击性等与摩擦学特性相关的特殊性能,使其有望应用于摩擦领域。已有研究表明,典型的MAX相如Ti3Si C2、Ti3AlC2等在干滑动摩擦条件下与低碳钢盘高速对磨时,摩擦学特性表现优良,这主要与其摩擦面上形成的由Ti和A位元素(Si或者Al)混合氧化物组成的摩擦学薄膜有关。本文利用钛铝碳的A位元素氧化物摩擦
随着综合交通运输体系的逐步完善和“一带一路”重大倡议的提出,多式联运已成为我国货物运输发展的必然趋势,铁水联运依靠低成本、大运量、衔接便利、安全可靠等优势成为多式联运体系的重要环节,同时,我国经济的“新常态”发展对交通运输总体能耗提出了新要求。铁水转运的作业时效性、有效衔接度、和高效低能耗发展更是未来我国交通运输调整结构、转型赋能的重点方向。集装箱铁水联运港站作为联运体系中的重要节点,其内部作业组
移动边缘计算(Mobile Edge Computing,MEC)是一种在网络边缘配置计算和存储资源的新兴计算范式,弥补云计算的不足,为攻克设备计算和存储资源受限无法满足新兴应用计算需求的难题提供新的解决方案,引起国内外相关业界的高度重视。设备通过计算卸载将计算密集型应用传输至边缘服务器执行,满足业务计算和低时延需求。然而,相比于云计算中的计算卸载,MEC的计算和存储资源有限。因此,在MEC的计算
图像分类是计算机视觉领域中非常经典的任务,在图像检索、医疗诊断、智能安防、自动驾驶等领域具有重要的理论意义和实用价值。近年来,由于深度卷积神经网络的应用,图像分类的性能取得了质的提升。但是,目前良好的分类性能大都是在清晰图像上获得的。然而,在许多实际应用中,比如自动驾驶、视频监控、可穿戴相机和医疗成像,获得的图像并不总是清晰的,相反,它们往往包含各种各样的退化。因此,对低质图像的研究是亟待解决并且
热致活化延迟荧光(TADF)材料作为第三代OLEDs发光材料,其优秀的性能、强大的系统兼容性以及巨大的市场潜力,给OLEDs照明和显示带来了新的活力。虽然目前TADF材料的研究和开发发展迅速,但其器件的效率和稳定性依然面临挑战,和实际应用相差甚远。器件性能与材料和器件中激发态的形成、衰变、激子的动态行为等最基本物理过程紧密相关,当电子和空穴分别从有机发光器件的两极注入并相遇,形成单线态激子、三线态
随着我国隧道建设规模的迅速扩大与地形、地质条件复杂多变性的日益突出,隧道塌方事故时有发生,给工程建设安全带来极大威胁,也造成巨大的经济损失和不良的社会影响,隧道塌方的原因和防治问题已经引起人们的极大关注。因此必须针对隧道塌方安全性问题开展系统深入的研究,掌握隧道塌方发生原因和机理、制定科学有效的控制对策,从而实现为塌方的有效预防、评估和处治提供依据,从根本上改善隧道施工安全现状。本文针对大断面隧道