基于外部模态增强的分割算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:fllmn2585
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉感知一直是人类接触外部世界的主要感知方式,其中图像和视频作为视觉信息的主要载体成为了人类探索外部世界的基础。运用基于深度学习的分割算法对图像和视频中的主要前景对象进行分割,在广泛的实际应用(例如,视频监控、自动驾驶等)中发挥着重要的作用。尽管基于深度学习的全卷积神经网络已经在密集预测任务上取得了阶段性进展,但是依旧存在着诸多潜在的问题。由于图像中复杂的场景(例如,易混淆的对象或前背景低对比度),模型无法精确定位前景对象和恢复精细边界细节。由于视频中的复杂场景和复杂运动状况(例如,遮挡、运动模糊等)带来的挑战,模型无法维持时序稳定性对视频进行对象分割。单纯地依赖于图像信息,模型受到噪声和无效信息的干扰,这造成了性能的严重衰减。本文在引入外部模态信息的基础上,证明了外部模态增强及多模态深度协作对于分割模型性能提升的重要意义,并由此设计了新颖的图像分割方法(显著性目标检测)和视频分割方法(无监督视频对象分割)。针对图像分割,本文设计了多属性特征协作网络,其以外部深度模态和外部边缘模态作为监督信息,从图像中建模深度属性信息和边缘属性信息,其利用多属性特征中稳定的几何结构信息来提供鲁棒的空间信息表达,从而实现前景对象的精确定位和细节恢复。针对视频分割,本文引入了外部光流模态,并设计了基于外观-运动的注意力多模态协作网络,其利用表征运动的光流模态来提供运动信息,并设计相关模块来自适应地融合多模态特征中的有效信息来联合产生鲁棒的时空特征表示。基于简单、新颖、有效的多模态聚合模块,本文提出的图像分割方法和视频分割方法在多个具有挑战性的基准数据集上进行了大量实验,并在不同的评估指标下证明了优越的性能。
其他文献
目前的商用飞机采用混合通风模式,即从座舱顶部送风,在侧壁靠近地板附近排风。混合通风意在提供均匀的热环境,以满足乘客舒适需求。然而,混合通风存在污染物交叉传递和引发疾病传播的风险,因此研究人员提出使用置换通风来减少舱内空气的混合,但是常规置换通风系统在座舱内容易形成较大的温度分层,给乘客脚部造成吹风感。现有研究对置换通风系统进行了一些改进,例如仅通过过道地板来供风,或者通过每位乘客座椅下方的风口来供
学位
自然场景文本检测旨在对各种现实场景中的文字区域进行定位,它是机器理解现实世界的重要步骤。目前,基于深度学习的自然场景文本检测已经成为计算机视觉领域的重要研究方向,其实际应用领域也越来越多,比如图像(或视频)搜索、字幕翻译、人机交互、机器自动化等。基于卷积神经网络的自然场景文本检测主要分为边框回归和分割两种方法。边框回归方法通常将文本检测视作目标检测领域的子任务,对于弯曲状文本的检测效果不理想。基于
学位
语音分离旨在将多个混合的语音分成单独的语音信号,它在人机交互、语音识别、数字音乐等领域具有广泛应用。多年来,有关单通道语音分离技术的研究已取得一定进展,但由于单通道固有的欠定性,使得传统方法的分离效果不佳。随着深度学习的兴起,数据驱动型方法在解决单通道分离问题上表现出明显优势,基于神经网络的单通道语音分离方法有所发展,但分离性能仍旧有待提升。本文应用深度学习理论,研究了基于深度学习的单通道语音分离
学位
面临频谱日渐拥挤的困境,5G通信系统引入了毫米波频率,通过探索尚未占用的宽频带以实现更高的数据传输速率。得益于毫米波波长短的优势,大规模多入多出(Multiple-Input Multiple-Output,MIMO)技术通过充足的天线增益补偿了毫米波信道的衰减,并在提升系统频谱效率方面彰显了极大的性能优势。在毫米波MIMO通信系统中,波束成形技术十分关键,其算法设计对系统性能的提升亦起着至关重要
学位
语音关键词识别是用语音信号处理方法,从用户话音流中检测出若干预定义的关键词。目前,语音关键词识别研究已取得重要进展,涌现出一些相关软硬件产品,并在人机交互、手机语音助手、智能音箱、智能耳机、智能家居等领域得到广泛应用。特别是近年来,随着深度学习理论的兴起,基于神经网络的语音关键词识别技术取得新进展,但由于其参数量大、算力要求高,难以在终端设备上应用。本文考虑到低参数量和低计算复杂度的应用需求,应用
学位
视觉目标跟踪任务是计算机视觉领域的基本任务之一,在近年来火热的人工智能研究的各个方面都有其身影。单目标跟踪任务就是在视频序列第一帧中给定一个要跟踪的目标及其边界框,要求跟踪器在后续帧中找到该目标。主流的单目标跟踪方法都是通过互相关计算来实现特征融合。互相关运算是一个局部线性匹配过程,只考虑了模板与搜索区域相似度,融合方式简单,容易导致语义信息丢失,并且在某些特定场景下不支持互相关计算。此外,现有的
学位
图像修复任务旨在利用计算机为图片的缺损区域生成自然、合理的填补内容。而把图像修复拓展到3D场景,则衍生出了3D图像修复任务。单一的图片被投影到3D空间后,由于前背景之间存在遮挡关系,前景边缘附近会有缺失内容,因而难以还原完整的3D场景。3D图像修复任务就是通过填补部分缺失的3D场景信息还原出2个视角之间的转换效果,这种多个视角的集合就是3D图像,3D图像渲染为视频后会有逼真的视觉效果。2D图像修复
学位
目的 探讨不同检验方法检测生殖道沙眼衣原体感染结果准确率的临床应用。方法 对106例疑似生殖道沙眼衣原体感染的患者尿道、宫颈拭子和尿液分别用酶联免疫吸附试验(ELISA)、抗原快速检测试验(免疫层析试验)和生殖道沙眼衣原体核酸检测(PCR),比较不同检验方法诊断阳性率、灵敏度和特异度。结果 以生殖道沙眼衣原体核酸检测为“诊断标准”,其阳性率为97.17%(103/106),酶联免疫吸附试验阳性率为
期刊
随着科学技术的快速发展,无线通信技术在智能制造、车联网、远程医疗、智慧城市等领域得到了广泛的应用。但在某些特定的工作场景下,比如封闭金属容器产生的静电屏蔽限制了电磁波的传输、强电磁干扰场合下无法正常使用无线电磁波通信。本文提出采用超声波代替电磁波作为信息传输的载体,利用方向性好、穿透力强等优点,可以克服静电屏蔽以及强电磁干扰对电磁波无线通信的影响,同时还不占用频谱资源。本文设计了一种基于超声波的低
学位
无人机由于其高机动性、易部署、价格相对较低和良好的视距(Line of Sight,Lo S)信道等优势引起了广泛关注。对于将物联网场景由2D转化到3D,无人机起到了关键性作用。针对无人机辅助物联网场景,多数学者们研究无人机作为中继使用时,考虑的地面用户为单用户,结合子载波的场景相对较少。在研究无人机作为基站(Base Station,BS)使用时,对无人机能量效率(Energy Efficien
学位