快速道路分割算法研究及模型部署

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wxj1234567
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动驾驶系统是新一代工业革命的关键技术之一,道路分割在其中扮演了重要角色,它能保障智能汽车的安全行驶,具有极大的研究意义和应用价值。研究者们提出了大量的道路分割方法,这些方法取得了较好的分割准确性,但是存在计算量过大的问题,而智能汽车搭载的平台算力十分有限,无法做到实时运算,因此难以为下游的决策模块提供及时的反馈。本文深入探索了道路分割中的关键问题,设计了兼顾准确性和实时性的道路分割算法,主要工作内容和创新点可总结如下:(1)本文构建了一种轻量化的逐点融合分割模型。该模型引入了一种全新的逐点融合方法,相比之前的方法降低了约30%的计算量,同时取得了相近的模型精度。作为本文后续改进的基线,该模型采用了残差模块和空洞卷积的设计,可以高效提取图像特征,达到了实时性运算。(2)本文设计了一种新颖的非对称空洞卷积模块。该模块利用了不同类型的路面呈现水平分布的特点,在水平方向上具有更大的空洞率,有利于模型捕捉水平方向的长距离信息,有效避免了道路两侧区域的误检,而且没有增加额外的计算代价。同时,本文通过直观的可视化揭示了该模块的内部作用机制。本文将该模块集成到上述的基线模型中,在KITTI数据集上的精度达到95.6%,运行速度达到138帧/秒。(3)本文设计了一种双分支架构的道路分割模型,上分支用于提取道路的底层特征,下分支用于提取场景中的上下文信息。本文的双分支架构去除了高层语义特征编码器,保留上分支的底层特征,同时设计了高效提取上下文信息的下分支,使用上下文信息对底层特征进行选择性过滤,最后利用过滤后的底层特征进行准确的道路分割。该模型取得了95.1%的精度,将运行速度进一步提升至243帧/秒。(4)考虑到智能汽车往往只能搭载算力有限的移动计算平台,本文将道路分割算法部署于移动平台Jetson TX2,通过模型剪枝和编译优化,进一步降低了模型计算延迟和功率消耗,达到72帧/秒,功率消耗在15W以下,具有很强的应用价值。
其他文献
随着深度学习的不断发展,场景文本检测和端到端识别领域取得了较大的进展。然而现有算法主要关注于复杂形状、语种多样性等难点,却忽视了由场景文本形状多样性带来的昂贵标注成本。相比图片分类任务的Image-Net数据集(1419万张图片),场景文本任务常用的高质量真实数据集图片较少,通常仅有一千张左右。然而,在实际应用中,往往需要十万、甚至百万的真实数据进行训练才能取到较高的文本检测识别性能。因此,减少场
学位
在公共交通区域进行监控是提供可靠保障的必要措施,而行人作为监控视频中的核心,如何准确地识别出行人身份,及时了解场所中行人的身份变化成为一大挑战。同其他用于身份识别的生物特征相比,步态特征具有独特的优势,即在远距离或低视频质量情况下的可辨别能力,步态识别也因此成为研究热点。步态识别算法的常用输入数据是轮廓图,轮廓图主要展现的是人体的外观特性,而步态的特征不仅包含人体的外观特性,还包含行走过程中的运动
学位
在信息呈爆炸式增长的互联网时代,人们需要处理的数据日趋增多,往往通过自然语言处理(Nature Language Processing,NLP)中一项基础任务——命名实体识别(Named Entity Recognition,NER)从大量非结构化文本中挖掘出有价值的信息。该任务旨在提取文本中具有特定含义的实体并将其分类为预定义的类型,例如人名、国家名、军事武器名等。近年来大部分NER研究只针对文
学位
在城镇化快速发展过程中,人口流动愈加频繁,由于公共空间有限,大量人口的涌入引发的社会公共安全问题日益突出。特别是在公共场所,有可能引发严重的踩踏事故,危害人民群众的生命财产安全。因此,如何有效地预测场景中的人群数量已经成为了最近计算机视觉领域的热点研究问题。随着深度学习和计算机视觉的快速发展,许多密集人群数量自动估计(人群计数)算法陆续被提出。由于密集场景下给每个人头标注包围盒是费时费力的,因此大
学位
目标检测是计算机视觉领域中的基础任务,旨在对图像或视频中的物体的进行分类与定位,在人脸识别、行人追踪、光学字符识别、对地目标追踪等领域具有重要价值。在基于深度学习的目标检测算法中,往往会先生成大量的包围盒,然后对这些包围盒进行排序和筛选。先前的算法默认采用分类分数作为排序和筛选的依据,但分类分数与包围盒质量相关性较低,无法代表包围盒定位质量。在目标检测算法中广泛采用交并比来衡量矩形之间的相似程度,
学位
视频修复是计算机视觉领域中近几年来热门的研究课题,在视频直播、短视频制作、自动化视频剪辑等领域有众多落地应用场景。得益于深度学习技术在计算机视觉领域中的蓬勃发展,视频修复技术也取得了长足的进步。然而,当前的视频修复算法框架都默认用户已经有了前置的视频目标分割结果,造成了算法在面向用户的时候交互不够友好,也导致了落地应用的局限性。另一方面,前置视频目标分割算法的好坏也对视频修复任务的效果有着明显的影
学位
多模态医学图像分割在临床诊断中发挥着重要作用。多模态数据已被证明可以从不同层面提供有关解剖结构的互补信息。有效结合多模态数据可以提高医学图像分割性能。近年来,基于深度学习的多模态分割方法取得了显著的进展。然而,现有方法通常简单地结合不同模态的特征,难以充分建模复杂的模态间依赖关系,且忽略了噪声和模态间差异的影响,使得多模态互补信息没有得到很好的利用。本文在配对多模态图像和不成对多模态图像两种场景下
学位
弱监督图像分割是计算机视觉中的一个重要任务,它能够有效的减少分割任务中标注工作量和标注成本。机器学习中弱监督的定义可进一步细分为不确切监督、不完全监督及带有噪声的监督。图像分割任务中的弱监督通常只包含少许像素的监督信息,本文核心研究思路是将这些稀疏的监督信息传递给图像中其它像素以实现准确的弱监督图像分割,并完成了如下工作:(1)针对弱监督图像语义分割中初始语义图监督信息稀疏问题,本文提出了深度图割
学位
三维场景理解是自动驾驶、智能机器人等人工智能技术应用的核心需求。本文主要研究三维场景理解中的两个重要三维信息的估计方法,即表征三维场景结构的深度估计和表征三维场景动态信息的三维动态目标分割。由于三维信息在不同时刻下的观测具有时序一致性,如何利用时序上的运动信息(光流、场景流或者位姿)辅助三维信息的估计成为当前研究的热点方向。本文分别基于相机传感器和激光雷达传感器进行研究,设计三维信息与运动信息的联
学位
近年来,随着立体视频等应用的兴起,视频信号的数据量越来越大,给存储和传输带来了沉重负担。在存储或传输之前,视频信号通常会被压缩。主流的视频压缩算法,在变换与量化等模块中引入失真,压缩数据的同时也影响压缩后视频的质量。如何在尽可能降低数据量的同时保持尽可能好的视频质量是视频编码的永恒话题。为此,视频质量增强算法被研究者们引入到视频编码中,其中基于神经网络的方法近年来成为了智能编码优化的研究重点,目的
学位