基于SSD和图像增强的水下目标检测算法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:xuefeng96ew
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,水下目标检测技术因其广泛的应用场景已成为计算机视觉的研究热点之一,其中基于深度神经网络的目检测算法则是主流方向。水下目标检测相对于普通的目标检测存在更多的问题,首先,受制于水下特殊的物理和化学特性,导致成像会出现模糊、颜色偏移、对比度低等问题;其次,由于存在尺度变化大、目标占比小、易受环境干扰、背景复杂多变等多种因素,导致水下目标检测率低、定位效果差。针对上述问题,本文的主要工作如下:(1)研究图像增强与SSD目标检测精度的相关性。传统的水下目标检测算法为了解决水下成像质量差的问题,会使用图像增强方法提高对比度和细节,然而对于深度神经网络算法而言,这种图像细节的增强是否有助于提高目标检测的精度并未看到系统化的对比研究。本文选取基于传统的水下暗通道先验算法、基于CNN的UWCNN方法以及FUNIE-GAN生成对抗网络方法,分别对原始数据集进行图像增强预处理,再送入SSD目标检测器中,在不同数据集上进行学习和检验并进行交叉统计分析,最后对基准数据集和不同图像增强算法处理后的图像质量参数变化与最终识别m AP进行相关性分析。实验结果表明:部分图像增强算法能够提高水下目标检测的精度,但是效果不显著;通过对PSNR,MSSIM,平均梯度和信息熵四个图像质量参数变化对检测精度的影响进行分析后,未得到简单的统计相关性,最终目标检测精度的小幅度提升可能是多种因素共同作用的结果。(2)提出了MFFSSD目标检测算法,以此来提高水下目标的检测精度。该算法改进之处包括三个部分:注意力机制、不同尺度的特征融合以及使用Focal Loss损失函数。针对水下目标模糊和占比面积相对较小的情况,通过引入注意力机制来突出有用信息,并降低背景干扰等无用信息,对卷积层提取的特征信息在通道和空间上进行加权,着重关注其中对目标检测更具意义的特定部分。在SSD中,特征图的尺寸会随着卷积和池化层次数的增加而减小,浅层特征中的高分辨率位置和细节信息在高层特征中会逐步丢失,给小目标检测带来了困难,针对这个问题,本文选择从网络的浅层提取一个含有更多细节信息的特征图,并将高层的语义信息引入到浅层的细节特征中,进行多层次特征融合,使得融合后的特征图具有更多的上下文信息,以此来提高小目标的检测精度。Focal Loss函数采取引入权重系数的策略,对正负样本和难易样本的损失值进行控制,减小正负样本和难易样本不平衡带来的误差,通过降低大量简单背景类的权重,使得算法更专注于检测前景类,进而提高了水下目标检测的精度。
其他文献
物联网、云计算、大数据、人工智能等新一代信息技术日新月异,正在深刻改变世界、改变着人们的生产和生活方式。信号处理领域传统的Nyquist-Shannon信号采样定理已无法满足实际应用需求,时代呼唤新技术“破茧化蝶”。压缩感知(Compressive Sensing)理论应时而生,突破了Nyquist-Shannon采样定理,它以比Nyquist采样频率要求的采样密度更稀疏的密度对信号进行随机亚采样
学位
基于字典对学习的图像识别方法已广泛应用于模式识别领域。分析-综合字典对学习结合了综合字典学习和分析字典学习的优点,简化了编码系数的计算,深受研究人员青睐。近年来,学者们提出了许多分析-综合字典对学习方法,在应对图像识别任务时,取得了不错的效果,但是,这些方法大多忽略了数据噪声的影响,并且训练十分耗时。此外,这些方法也没有考虑分析字典与综合字典之间的潜在关系。为了解决这些问题,进一步提高字典对的判别
学位
行人重识别技术旨在解决跨摄像头跨场景下行人的识别与检索问题,是智能监控的核心技术之一。传统的方法主要依据人工设计的特征和距离度量来完成行人重识别任务。近年来,深度神经网络表现出强大的特征表达能力,被越来越多的学者应用在行人重识别任务中。由于视角变化、相机风格变化、遮挡等干扰,同一行人样本呈现出明显的视觉差异,增加了行人重识别的难度。而现有数据集规模较小使得行人重识别研究更具有挑战性。针对以上问题,
学位
在科学研究及工程领域,许多实际应用问题常常被规范化为特定数学模型下的优化问题。而优化的问题往往具有求解空间大、维数多等特征,使得对其进行优化的方法面临着计算复杂程度高、求解持续时间短等问题。智能算法是一种基于概率的随机搜索进化算法。首先模拟种群的原始分布,然后利用随机搜索以及有选择性地遗留后代数据来仿真和模拟种群的演变过程,通过迭代和更新找寻最优理论和求解的目标。引力搜索算法作为一种较为新颖的智能
学位
语音识别作为人机交互的关键技术在语音搜索、语音智能控制及车载娱乐等领域得到广泛应用。端到端自动语音识别与传统自动语音识别相比较,摒弃了发音词典和语言模型,真正实现直接从语音转录成文本,解决了传统自动语音识别过程繁琐、准确率不足等问题。近年来,端到端自动语音识别逐渐的成为了研究热点。在此背景下,本文在基于混合CTC-Attention端到端自动语音识别架构的基础上进行研究,主要工作如下:(1)针对混
学位
近年来,随着大数据时代的到来,数据的不平衡问题日益突出,例如网络系统是否受到异常程序的干扰、视频监控系统中是否存在异常行为、医学上疾病的诊断、生物信息学中药物分子的活性检测、伪造信用卡的识别、大量垃圾邮件的过滤,其中异常程序、异常行为、罕见疾病以及活性位点、欺诈行为、非垃圾邮件的数据往往在总的样本集中占据较小的比重,然而对他们的正确预测在实际的生活中显得日益重要。如何使用现有的机器学习和数据挖掘技
学位
症状术语(症状词)的数量和质量是医生诊断和智能诊断的基础之一,只有症状词的数量足够多,机器或医生才能在诊断推理时做到不漏诊、误诊。目前关于症状词提取、扩展的主流方法包括深度学习、支持向量机、随机场等,这些研究不是出于商业应用去实现真实世界大规模词的获取和扩展,而是着重于算法改进的实验性验证,如验证算法的测试精度、召回率等,而且训练样本和算法获取的症状词多在几百、几千规模,因此关于大规模症状词的获取
学位
作为社会力量的一支,民营实体书店的公共文化服务职能日益凸显。尽管近年来政府积极引导和鼓励社会力量参与公共文化服务,但实践中,民营实体书店参与公共文化服务的历程并非一帆风顺,参与程度也参差不齐。对民营实体书店参与公共文化服务的实践进行研究将有助于推动民营实体书店更好发挥公共文化服务职能。本文选取A市士风书社参与公共文化服务的实践为例,在描述案例的基础上,从参与的动因、制约参与的因素两个方面对民营实体
学位
县级政府作为政府和群众沟通发展的桥梁,在社会治理层面存在特殊性,是县级经济社会发展的“前沿载体”,经济的迅速发展,传统的社会治理方式的隐性缺陷逐渐暴露,随着社会经济的发展和社会矛盾的多样化,这些问题已经慢慢成为我国县级政府社会治理提升道路上的障碍。党的十九大报告高度重视社会治理问题,提出要全面提高社会治理能力,打造新时期新型社会治理格局。因此,各级政府要立足长远发展目标,从本地区的基本实际出发,结
学位
随着软件工程的逐步发展,软件的规模和复杂性逐渐增大,软件中微小的缺陷可能会造成人力资源的严重浪费和经济的巨大损失,甚至造成不可挽回的后果。在这种情况下,如果能在软件发布之前预测软件中潜在的缺陷并进而修改无疑具有重要意义。软件缺陷预测通常基于机器学习模型,利用软件度量和已知缺陷构建软件缺陷预测模型,进而预测潜在但未被发现的缺陷模块。目前为止,许多成熟的数据挖掘和机器学习算法被用于软件缺陷预测任务。然
学位