【摘 要】
:
区域分割任务旨在对场景中特定的区域进行识别,属于计算机视觉领域中的分支任务,在自动驾驶、地图元素检测及视频理解等方面被广泛应用。相比于传统方法,基于深度学习的区域分割方法准确率更高。但仅利用高阶语义特征进行区域分割的方法受限于目标区域的尺度,常出现分割结果不完整、精度低的情况。针对具体应用场景,利用先验知识对高阶语义特征进行增强和补充成为改善分割结果的重要途径。本文的第一部分针对遥感影像场景下道路
论文部分内容阅读
区域分割任务旨在对场景中特定的区域进行识别,属于计算机视觉领域中的分支任务,在自动驾驶、地图元素检测及视频理解等方面被广泛应用。相比于传统方法,基于深度学习的区域分割方法准确率更高。但仅利用高阶语义特征进行区域分割的方法受限于目标区域的尺度,常出现分割结果不完整、精度低的情况。针对具体应用场景,利用先验知识对高阶语义特征进行增强和补充成为改善分割结果的重要途径。本文的第一部分针对遥感影像场景下道路区域分割结果破碎的问题,提出了基于迭代跨任务特征增强的遥感影像道路分割算法。为了显式地利用道路分割任务与道路方向预测任务间的相关性,构造交互信息流,充分地利用先验知识进行特征增强以提升道路分割结果的准确性,本文提出了迭代跨任务特征增强网络,以多任务学习的方式共同优化两个任务的深层特征。为实现两个任务间的迭代优化,本文首先设计了语义引导特征增强模块,该模块利用语义信息来引导和增强方向预测特征以提升方向特征的可信度,然后设计了方向感知特征聚合模块,该模块根据道路方向自适应地调整卷积核感受野,提升网络的方向感知能力以聚合更多的有效信息,最后设计了迭代跨任务特征增强策略,通过构造交互信息流的方式迭代增强两个任务的特征,解决了方向信息利用不充分的问题。经实验证明,本文提出的算法在公开道路分割数据集上的分割结果在完整性和准确性方面都有良好的表现,改善了遥感影像道路分割结果破碎、不连续的问题。本文的第二部分针对视频数据中显著目标区域分割结果不完整、不稳定的问题,提出了基于特征增强的视频显著目标分割算法。视频显著目标分割任务需要利用视频序列中的时序信息,目前利用光流提供时序信息耗时较大,影响网络的推理速度。本文首先设计了时序记忆模块,整合视频序列中的长距离时序信息,对当前帧特征进行重构和增强以提升特征的表征能力,然后设计了时序一致性损失函数,利用光流提供视频序列中目标的运动信息来构造损失函数,对目标短时内的分割结果进行一致性约束,提升分割结果的准确性和稳定性。算法通过网络学习隐式地将运动信息嵌入至神经网络的特征中,在推理阶段不增加计算成本,避免在推理阶段增加网络耗时。经实验证明,本文提出的算法在公开视频显著目标分割数据集上的分割结果在准确性和稳定性方面都有良好的表现,改善了分割结果不稳定、精度低的问题。
其他文献
自然场景文本检测旨在对各种现实场景中的文字区域进行定位,它是机器理解现实世界的重要步骤。目前,基于深度学习的自然场景文本检测已经成为计算机视觉领域的重要研究方向,其实际应用领域也越来越多,比如图像(或视频)搜索、字幕翻译、人机交互、机器自动化等。基于卷积神经网络的自然场景文本检测主要分为边框回归和分割两种方法。边框回归方法通常将文本检测视作目标检测领域的子任务,对于弯曲状文本的检测效果不理想。基于
语音分离旨在将多个混合的语音分成单独的语音信号,它在人机交互、语音识别、数字音乐等领域具有广泛应用。多年来,有关单通道语音分离技术的研究已取得一定进展,但由于单通道固有的欠定性,使得传统方法的分离效果不佳。随着深度学习的兴起,数据驱动型方法在解决单通道分离问题上表现出明显优势,基于神经网络的单通道语音分离方法有所发展,但分离性能仍旧有待提升。本文应用深度学习理论,研究了基于深度学习的单通道语音分离
面临频谱日渐拥挤的困境,5G通信系统引入了毫米波频率,通过探索尚未占用的宽频带以实现更高的数据传输速率。得益于毫米波波长短的优势,大规模多入多出(Multiple-Input Multiple-Output,MIMO)技术通过充足的天线增益补偿了毫米波信道的衰减,并在提升系统频谱效率方面彰显了极大的性能优势。在毫米波MIMO通信系统中,波束成形技术十分关键,其算法设计对系统性能的提升亦起着至关重要
语音关键词识别是用语音信号处理方法,从用户话音流中检测出若干预定义的关键词。目前,语音关键词识别研究已取得重要进展,涌现出一些相关软硬件产品,并在人机交互、手机语音助手、智能音箱、智能耳机、智能家居等领域得到广泛应用。特别是近年来,随着深度学习理论的兴起,基于神经网络的语音关键词识别技术取得新进展,但由于其参数量大、算力要求高,难以在终端设备上应用。本文考虑到低参数量和低计算复杂度的应用需求,应用
视觉目标跟踪任务是计算机视觉领域的基本任务之一,在近年来火热的人工智能研究的各个方面都有其身影。单目标跟踪任务就是在视频序列第一帧中给定一个要跟踪的目标及其边界框,要求跟踪器在后续帧中找到该目标。主流的单目标跟踪方法都是通过互相关计算来实现特征融合。互相关运算是一个局部线性匹配过程,只考虑了模板与搜索区域相似度,融合方式简单,容易导致语义信息丢失,并且在某些特定场景下不支持互相关计算。此外,现有的
图像修复任务旨在利用计算机为图片的缺损区域生成自然、合理的填补内容。而把图像修复拓展到3D场景,则衍生出了3D图像修复任务。单一的图片被投影到3D空间后,由于前背景之间存在遮挡关系,前景边缘附近会有缺失内容,因而难以还原完整的3D场景。3D图像修复任务就是通过填补部分缺失的3D场景信息还原出2个视角之间的转换效果,这种多个视角的集合就是3D图像,3D图像渲染为视频后会有逼真的视觉效果。2D图像修复
目的 探讨不同检验方法检测生殖道沙眼衣原体感染结果准确率的临床应用。方法 对106例疑似生殖道沙眼衣原体感染的患者尿道、宫颈拭子和尿液分别用酶联免疫吸附试验(ELISA)、抗原快速检测试验(免疫层析试验)和生殖道沙眼衣原体核酸检测(PCR),比较不同检验方法诊断阳性率、灵敏度和特异度。结果 以生殖道沙眼衣原体核酸检测为“诊断标准”,其阳性率为97.17%(103/106),酶联免疫吸附试验阳性率为
随着科学技术的快速发展,无线通信技术在智能制造、车联网、远程医疗、智慧城市等领域得到了广泛的应用。但在某些特定的工作场景下,比如封闭金属容器产生的静电屏蔽限制了电磁波的传输、强电磁干扰场合下无法正常使用无线电磁波通信。本文提出采用超声波代替电磁波作为信息传输的载体,利用方向性好、穿透力强等优点,可以克服静电屏蔽以及强电磁干扰对电磁波无线通信的影响,同时还不占用频谱资源。本文设计了一种基于超声波的低
无人机由于其高机动性、易部署、价格相对较低和良好的视距(Line of Sight,Lo S)信道等优势引起了广泛关注。对于将物联网场景由2D转化到3D,无人机起到了关键性作用。针对无人机辅助物联网场景,多数学者们研究无人机作为中继使用时,考虑的地面用户为单用户,结合子载波的场景相对较少。在研究无人机作为基站(Base Station,BS)使用时,对无人机能量效率(Energy Efficien
视觉感知一直是人类接触外部世界的主要感知方式,其中图像和视频作为视觉信息的主要载体成为了人类探索外部世界的基础。运用基于深度学习的分割算法对图像和视频中的主要前景对象进行分割,在广泛的实际应用(例如,视频监控、自动驾驶等)中发挥着重要的作用。尽管基于深度学习的全卷积神经网络已经在密集预测任务上取得了阶段性进展,但是依旧存在着诸多潜在的问题。由于图像中复杂的场景(例如,易混淆的对象或前背景低对比度)