【摘 要】
:
当前,陆上环境目标检测技术的发展已经趋于成熟,在检测速度和精度上都有了较大的提升,而水下目标检测的相关研究则进展缓慢,其主要原因有以下两点:首先,不同海域、不同深度、不同时间以及不同浑浊度状态下采集到的图像风格差异较大;其次,用于目标检测训练任务的图像需要预先进行人工标注,而人工标注不仅费时费力,长时间持续标注也可能会由于主观因素导致出现错标和漏标等问题,这些“问题数据”将会直接影响训练出的目标检
论文部分内容阅读
当前,陆上环境目标检测技术的发展已经趋于成熟,在检测速度和精度上都有了较大的提升,而水下目标检测的相关研究则进展缓慢,其主要原因有以下两点:首先,不同海域、不同深度、不同时间以及不同浑浊度状态下采集到的图像风格差异较大;其次,用于目标检测训练任务的图像需要预先进行人工标注,而人工标注不仅费时费力,长时间持续标注也可能会由于主观因素导致出现错标和漏标等问题,这些“问题数据”将会直接影响训练出的目标检测模型的检测精度。针对上述问题,本文对水下图像的特征和分布进行了分析,基于生成对抗网络强大的图像合成能力,本文提出了一种跨域水下图像风格转换网络,通过少量带标记图像生成大量带标记并且具有不同风格的水下图像,利用生成的多风格水下数据集训练目标检测网络,提高检测模型的泛化能力。本文的具体研究工作分为以下两个部分:(1)研究基于风格转换的水下图像合成方法。针对水下图像样本中有效数据过少,并且人工标注费时费力的问题,提出一种基于风格转换的水下图像合成方法。本文研究了无监督图像风格转换网络Cycle GAN在水下图像合成的表现,研究发现,Cycle GAN在颜色和纹理迁移上具有良好效果,但对图像内容保留不足,合成图像存在局部细节特征丢失等问题,无法用于目标检测训练。本文针对Cycle GAN对内容语义保留不足的问题,对Cycle GAN的生成器进行调整,并加入恒等映射损失,从而改善合成图像的质量。最后,从颜色和纹理分布对合成图像进行分析。(2)研究跨域水下目标检测问题。针对不同数据集之间的图像跨域导致训练出的目标检测模型泛化能力差的问题,提出一种跨域水下目标检测方法。首先选择部分已标记的水下图像作为源域图像,真实场景中与源域图像具有不同风格的图像作为目标域图像,然后使用跨域风格转换网络将源域图像转换到目标域中;然后利用合成图像训练目标检测模型,并与原始图像训练出的目标检测模型的准确率进行对比,以此来检验图像合成的效果。经过实验证明,合成图像与目标域图像具有相近的颜色分布,并且很好地保留了源域图像的内容信息;分别利用原始图像与合成图像训练目标检测任务,原始图像训练出的目标检测模型在源域图像中具有较好的检测效果,但对目标域图像检测的泛化能力不足,而使用合成的图像训练出的检测模型对目标域图像以及其他域的检测能力更好,能够适应更多场景,泛化能力更强。
其他文献
日本普惠保险的发展经历了从以保险商品为中心、以区域和行业普及为中心到以业态形成为中心的演变。20世纪初期,日本以简易生命保险产品快速普及普惠保险,配套设置以国家信用为担保的简易生命保险特别规则。20世纪中期,日本以共济业为中心,形成了普惠保险的区域和行业发展模式,共济规制理念和做法经历了以强调个性到注重共性的变迁。1995年放松保险业规制后,日本在立法层面创设小额短期保险业,经由特别立法扶持行业发
图像作为信息传输的重要载体,保证图像在互联网中安全的传输是一个巨大的挑战。利用混沌特性设计新密码系统,以保证信息的安全存储和传输,是当前混沌密码学面临的迫切任务。本文结合混沌动力系统与布尔网络理论,对混沌图像加密算法设计与模型构建开展了以下研究。(1)结合矩阵半张量积(Semi-tensor Product,STP)理论设计了一种高效的混沌图像加密算法。此方法打破了传统矩阵运算的束缚,使反应矩阵具
财务领域的知识体系复杂庞大,相关政策更新迭代速度频繁,人们日常办理财务业务可能会遇到各种各样的问题,因此需要准确高效的获取财务领域的知识。传统的方式是拨打咨询热线,但当咨询量大、线路繁忙时,用户不能及时的获取知识。随着互联网的快速发展,财务知识的获取大多来源于网络,但财务领域知识具有专业性高、私密性强等特点。用户通过网上搜索的方式难以真正的获取到有效的信息。为解决以上提出的问题,本文结合深度学习、
场景识别是对无结构化数据进行智能处理,从而使其变成可供计算机自动识别的分类问题,是一种综合运用计算机视觉、行为识别和人工智能的重要技术。在大数据和人工智能的时代背景下,场景分类技术广泛应用于遥感图像处理、视频图像处理、智慧城市和智能家居等领域之中。其中,视频场景分类是计算机视觉领域一个热点的研究问题,其目标是综合运用图像处理、机器学习、模式匹配和人工智能等技术实现场景的语义理解,在视频分析、视频剪
在信息数据快速传播的时代,数字图像传输的频率很高。在保护图像信息的各种方法中,对图像进行加密是一种非常有效的措施。与文本和语音相比,图像表示的信息更加生动,但这也意味着图像信息量很大,冗余度很高,相关性很强。因此,传统的加密方案不能保证加密的安全性要求。遗传信息分为脱氧核糖核酸(Deoxyribo Nucleic Acid,DNA)和核糖核酸(Ribonucleic Acid,RNA),DNA计算
税收是国家组织财政收入的主要形式与工具,税务持续受到社会公民的广泛关注。伴随我国税务信息化建设的全面开展,税务办理效率显著提升,但目前税务存在业务内容复杂、征管关系繁多、时效性较差等问题。纳税人无法全面了解税务政策,税务办理存在的问题主要通过咨询客服专员得以解决,方式单一且人力资源投入较大,无法在较短时间解决大量用户的税务咨询需求。针对当前税务办理存在的问题,论文基于自然语言处理技术与系统开发相关
无监督学习因为有着能够利用未标记的数据进行训练的特性,成为人工智能领域讨论的热点之一。基于能量模型的生成对抗网络就是一种学习数据的非规范对数密度的无监督学习方法。针对现有的能量模型框架,本文提出一种非参数估计邻域熵算法的能量模型(NEEM),主要工作如下:(1)提出非参数估计邻域熵算法的能量模型(NEEM),算法在考虑每个样本点附近k近邻区域的非均匀概率密度的情况下,通过给经典熵估计方法增加局部高
在计算机视觉领域中,对处于复杂光线场景或者极端运动状态下的目标物体进行跟踪是一项重要且充满挑战的任务。相比于传统相机,基于事件相机的视觉感知系统更关注每个像素的光强变化,表现出了更加出色的感光能力,更低的延迟和更小的功耗。本文针对基于事件相机的运动目标跟踪问题展开研究,主要工作是基于相关滤波跟踪框架设计了一种针对于异步事件流的跟踪方案,具体包括外观模型建立和跟踪算法设计两部分。在外观模型建立部分,
航空运输是现代化运输体系的重要组成部分,民用航空运输是国民出行的重要交通方式。伴随民用航空运输的全面普及,航班数量激增致使航班延误与波及延误事件频发,严重影响乘客出行计划、降低航司经济效益。此外,因航班延误带来的纠纷与冲突常引发群体性事件,影响社会和谐与稳定。基于此,制定鲁棒性的飞机排班调度方案具有重要的应用价值。本文针对鲁棒性飞机排班调度计划问题展开研究,具体地,本文主要研究内容如下:(1)针对
近年来,为了解决图像相关性强和冗余度高等问题,基于混沌理论的图像加密成为了一个热门的研究课题。另一方面,随着3D打印的兴起,基于混沌理论的三维模型加密的研究也迫在眉睫。且现有的三维模型加密存在着加密过程复杂,加密速度慢等问题,故本文提出了一种基于混沌理论的三维模型加密算法。另一方面,基于现存的混沌图像加密算法所存在加密效率过低和密钥敏感性较弱的等问题,本文分别提出了两种基于混沌理论的图像加密算法。