基于注意力机制的目标检测与语义分割应用研究

来源 :江西理工大学 | 被引量 : 1次 | 上传用户:fgq861218
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,图像的目标检测与语义分割作为计算机视觉领域发展的基石,对图像理解分析起着至关重要的作用。目标检测主要关注的是图像中需要识别的物体类别信息,并标注出这些类别物体所在空间位置;而语义分割是指在图像的像素层面对目标物体实现分类,不仅要明确物体的类别、位置还要区分各个物体之间具体的形态信息。这两种方法在工业图像检测领域都具有十分优秀的应用前景。基于此,本文针对医学图像的血细胞检测与遥感图像的云检测任务中存在的检测精度与速率不匹配的问题,结合现有的基于深度学习算法的研究现状以及相关改进技术的发展历程,完成了以下两个方面的应用研究:(1)在血细胞检测应用中,针对各类检测方法应用于血细胞检测时速度与精度不兼容的问题,本文提出了一种基于注意力机制的血细胞检测模型。该模型以YOLO模型为框架,使用Dark Net-53作为骨干网络,并在其中加入多尺度残差增强模块,提高对网络特征信息的利用率;同时设计一种注意力门控插件嵌入模型,用于融合更多高质量的上下层语义特征信息,以大幅度提高检测准确率;最后,针对小目标检测能力不足的问题,采用基于Focal loss的改进损失函数,通过为正负样本加上权重值,使模型在训练过程中更专注于难以分类的样本,进而解决样本类别不均衡的问题。(2)在云检测应用中,针对U型编码器-解码器的网络结构在云检测任务中综合性能不佳的问题,本文提出了一种基于注意力机制的云检测模型。该模型采用跳跃连接编码端浅层和中层信息的新U型编码器-解码器结构,并在编码端嵌入由分组卷积与注意力机制组成的优化模块,同时构建上下文语义融合连接,连接编码端与解码端相应的上下层。实验表明,该模型在分割精度与模型参数方面均取得更优异的结果。
其他文献
合成孔径雷达(Synthetic Aperture Radar,SAR)是一种对地观测系统,能够快速获取目标信息并对目标进行高分辨率成像,且具有全天候、全天时工作能力,在军事和民用等领域得到了广泛的应用。作为SAR领域的研究热点之一,SAR图像解译技术能够完成SAR图像中目标的检测、识别、分类和分割等任务。近年来,随着深度学习的迅速发展,光学图像领域的图像语义分割技术已取得显著成绩,该技术也推动了
学位
随着网络技术飞速的发展,网络资源总量呈指数型增长,信息过载问题也愈演愈烈,面对如此海量且繁杂的数据,用户很难快速找出需要的信息,推荐系统能够有效缓解这一问题。个性化推荐系统通过各种数据挖掘技术解析用户的日志信息,给用户推送其偏爱的信息。推荐领域里推荐算法设计的好坏很大程度上决定了推荐性能的高低和用户的使用感受,因此对推荐算法的研究与改进有重要的意义。在多种个性化推荐算法里,二部图网络结构的推荐算法
学位
目前,心血管疾病是我国患病人数最多的一种病症,其死亡率在全国居民患病类型中处于首位。心音信号中含有表征心脏功能的特征信息,可用于心血管疾病的预防与诊断。本文从原始心音信号进行分析,利用心音信号的时频特征,以心音降噪与心音分类为主要内容进行研究,主要工作与贡献如下。(1)在心音降噪方面提出了一种基于CEEMDAN与最优小波的心音降噪方法。针对小波去噪中高频有效信息丢失问题,引入了CEEMDAN自适应
学位
高原地区气候恶劣、高寒、缺氧,隧道施工安全风险大,施工安全事故发生率高,易造成巨大经济损失和严重人员伤亡。为了避免高原隧道项目建设施工安全事故的发生,确保施工作业安全,对高原隧道项目建设阶段存在的安全风险问题进行评价及管理研究迫在眉睫。鉴于目前尚无全面、科学、可行的高原隧道施工安全风险评价体系,亦无具有较强科学性和针对性的高原隧道施工安全风险控制方法,文章通过对高原隧道施工安全风险评价指标体系及模
学位
近年来,新型二维纳米材料在多个领域展现出越来越大的应用潜力。石墨烯因拥有很高的载流子转移速率、优异的导热导电等特性,而深受广大研究学者的青睐;但由于石墨烯的光吸收率较低且禁带宽度为零,这限制了其在光电子器件领域的进一步应用。与石墨烯相比,二维过渡金属硫族化合物(TMDCs)拥有较宽的带隙,在实验和理论研究上都表现出了良好的物理特性。二硒化钨(WSe2)作为TMDCs中带隙相对较大的重要成员,其是首
学位
近年来,随着计算机网络技术、数据存储技术的迅猛发展,各行业数据量都呈现爆发式的增长,我们进入了大数据时代。如何高效处理这些海量数据,并从中挖掘潜在价值信息,是近年来一直热议的话题,而数据挖掘技术成为人们探讨解决此话题的主流方向。分类算法是常用的数据挖掘技术之一,在分类算法中,支持向量机(Support Vector Machine,SVM)由于具有良好的泛化能力、很好的克服维数灾难以及非线性解决问
学位
近几年,随着计算机视觉和人工智能技术的飞速发展,通过计算机来识别人体动作已经成为了人工智能领域内热门的课题之一。它的主要任务是从输入的视频中提取有效的时空特征,然后根据同类相似异类相斥的原则对不同的特征进行分类。目前,动作识别研究已经被广泛研究于智能监控、人机交互以及运动检测等多项应用领域。本文基于时空特征融合对目前主流的动作识别算法进行了总结和归纳,并以提取表达能力强、鲁棒性高的视频特征为目的,
学位
阐述信息建筑模型的可视化、仿真性、协调性特点,探讨BIM技术在工程造价控制中的应用,工程建设中合理运用BIM技术,可以大大提高工程的科学性,并降低成本。
期刊
视觉问答(Visual Question Answering,VQA)是基于计算机视觉和自然语言处理的跨领域交叉方向。VQA需要检测图像中包含的信息并理解与图像匹配的问题语义,输出符合人类语言逻辑的答案。其关键在于目标图像和问题文本之间语义对齐的学习,即通过神经网络提取图像特征和相对应问题文本的特征,然后将多模态特征映射到多模态特征空间中融合,最后在分类器中得出预测答案。目前的VQA模型大多采用全
学位
近年来周期驱动系统展现出的丰富物理现象受到学界广泛关注,此类体系在物理学的各分支,如量子混沌和凝聚态物理,有重要研究意义。非厄米物理是量子理论的一个根本修正,在量子线路、超冷原子气体和光波导管具有真实对应体系。非厄米效应诱导新奇物理现象,如拓扑新物态、非互易输运和趋肤效应,吸引了广泛研究兴趣。其中,一类Parity-time reversal(简称PT)对称系统所展现的奇异点(Exceptiona
学位