【摘 要】
:
伴随着科技的进步与计算机视觉技术的飞速发展,基于深度学习的目标检测技术得到了越来越广泛的应用,在各个领域都展现出蓬勃生机。与此同时,也出现了越来越多样化的数据形式,这给目标检测任务带来了难点。可见光单模态数据在部分特殊情况下提供的信息不够充足,基于可见光单模态图像的目标检测任务可能会出现准确率下降的问题,然而越来越多样化的数据形式给这个问题带来了转机。使得可以通过对不同模态的图像数据进行融合的方式
论文部分内容阅读
伴随着科技的进步与计算机视觉技术的飞速发展,基于深度学习的目标检测技术得到了越来越广泛的应用,在各个领域都展现出蓬勃生机。与此同时,也出现了越来越多样化的数据形式,这给目标检测任务带来了难点。可见光单模态数据在部分特殊情况下提供的信息不够充足,基于可见光单模态图像的目标检测任务可能会出现准确率下降的问题,然而越来越多样化的数据形式给这个问题带来了转机。使得可以通过对不同模态的图像数据进行融合的方式,来提高目标检测任务的性能。但不同模态图像的融合方法仍然有待研究,如何使得多模态目标检测模型能更好的结合来自不同模态图像的特征,以达到更好的目标检测效果成了目前研究的热点方向,在理论研究和实际应用这两个方面都具有很高的价值。然而,使用了多模态数据带来了精度上升的同时,也会由于网络模型复杂度的提升,导致实时性有所下降,并占用了大量的计算资源。如何在保证几乎不降低精度的情况下降低模型的尺寸,提高算法的实时性是值得研究的方向。本文主要针对基于多模态图像的目标检测算法进行研究并取得了以下结果。(1)针对基于可见光单模态图像的行人检测算法在夜间光照不足的情况下表现较差的情况,基于YOLO算法,构建了使用可见光-红外光双模态图像作为输入的行人检测算法模型。并按照多模态特征融合过程中的数据级融合、特征级融合、决策级融合的不同融合阶段分别进行实验。随后根据以上几种不同融合阶段均忽略了融合特征图的多尺度问题,以YOLO算法的特征提取网络Darknet在特征提取过程中生成的不同尺度特征图为基础,进行不同尺度上的多模态图像特征融合,并进行多尺度的行人检测。提出了基于YOLO的多模态融合行人检测算法,通过在公开的标准多模态行人检测数据集上与基于可见光的单模态行人检测算法进行对比,证明了使用多模态图像进行目标检测的有效性,并初步确定了基于YOLO的多模态融合行人检测算法架构。(2)针对其他基于多模态图像融合的行人检测算法在特征融合过程中所采用的直接concat的级联融合方式忽略了不同模态差异的问题,精心设计了多模态加权融合模块,以此赋予不同模态图像权重,并引入了CBAM注意力机制。通过在公开的标准多模态行人检测数据集上对所使用的模态加权融合层和注意力机制进行消融实验,证明了所提出的结合注意力机制的多模态加权融合模块的有效性,并使得所提出的基于YOLO的多模态加权融合行人检测算法的精度进一步提高,并与其他多模态行人检测算法对比,证明本文所提出算法的有效性。(3)针对基于YOLO的多模态加权融合行人检测算法由于需要对两个模态数据进行特征提取而导致的网络模型尺寸变大、占用大量计算资源导致的检测速度降低而引起的算法实时性不足的问题,进行了模型轻量化尝试,试验了分别引入深度可分离卷积和引入通道混洗这两种不同思想的模型轻量化方法,并比对这两者的优劣。使得所提出的轻量级多模态加权融合行人检测算法可以在不显著降低检测精度的前提下,降低了模型的尺寸和计算复杂度,有效的提高了算法实时性。综上,本文为了证明基于多模态图像的目标检测算法相对基于单模态图像的目标检测算法的有效性,试验了多种不同阶段的特征融合方法,并根据YOLO算法的特征提取网络Darknet的所提取的特征图具有的多尺度特性,进行了不同尺度上的多模态特征融合。随后引入了注意力机制,设计了模态加权融合模块,对来自不同模态的特征进行模态加权融合,提出了基于YOLO的多模态加权融合行人检测算法,并通过实验验证了此算法的有效性。此外,对该算法进行了轻量化尝试,以在不显著降低准确度的同时提高行人检测的实时性,并取得了一定的成效。
其他文献
目前多视角聚类已取得了重要进展,但仍然面临诸多挑战,其中一个关键的挑战是:尽管大部分多视角聚类方法提出了不同的视角协同机制,但大部分方法在进行多视角协同时间,仅利用显式的原始空间信息或者仅利用某些隐性空间的信息,因而未能充分实现显隐信息间的协同。此外,拓扑结构是数据集的重要的信息,但多数多视角聚类算法进行协同学习时,未能充分利用此类信息进行协同。针对上述挑战,本文提出了两个多视角聚类算法,较之于目
锅式杀青是由茶农在锅内翻炒茶叶,并根据茶叶气味及颜色的差异及时调节锅温,改变茶叶受热量。因人工感官反馈控制的优势,这种杀青方式主要用来处理名贵茶叶。然而受主观因素和环境因素的影响,这种杀青方式均一性较差,且手工控制锅温,耗费人力。因此,本文以绿茶鲜叶为实验材料,利用PEN3电子鼻和视觉在线检测技术代替人的嗅觉和视觉,对不同恒定锅温杀青过程中绿茶气味和颜色进行测量并对其变化规律及变化机理进行研究,同
近年来,随着网络、大数据、人工智能的飞速发展,在网络成为人们生活中不可或缺的一部分的同时,自媒体行业也日益壮大。网络中不可避免的呈现出一些非合规图片。这不仅污染了网络环境,也在一定水平上影响到了人们的身心健康。其次,在信息时代的成长下,深度学习成为这个范畴比较突出的一个方面。一般来说,深度学习会耗费了大批的计算力和内存等。对神经网络来讲,神经网络越精密,所获得的成果就会越准确。这使得经过深度学习后
艺术品的量化评估是实验美学、计算美学、计算机艺术、人工智能艺术等许多领域的基础。计算美学领域的研究集中于图形艺术客观物理特征的测量和计算,而实验美学领域的研究则集中于主观心理感受的量化。这些研究为审美对象提出了多样化的美学评估指标和方法,但在很大程度上忽略了书画作品的“可追溯感”的美学评估。可回溯感是艺术欣赏和临摹中想象地再现原作创作行为的一种审美体验,其本质是与创作者产生“共情”。书法的这一审美
本文主要针对具有周期性变化图案的纺织品,研究对其瑕疵部分进行检测的算法。在传统图像处理领域,针对纺织品图像由于在拍摄生成的过程中存在的拉伸和旋转形变,提出一种图像校正方法,将不同程度变化的不规则图案校正为符合图像本身周期规律的整齐图案。在深度学习领域,在传统自编码器的基础上加入SSIM损失函数和高斯噪声项,以提高对图像的重构能力,用于将有瑕疵的图像重构为无瑕疵图像,以实现对瑕疵部分的识别。利用深度
图像融合是一种图像增强技术,通过将不同类型的传感器获得的图像组合起来,从而生成具有丰富信息和鲁棒性良好的融合图像,以便后续的图像处理。图像融合技术广泛使用在军事、遥感、安全监控和医学图像等领域。融合方法设计的关键是高效的图像信息抽取和合适的融合规则,并且要避免人工因素对融合结果的影响。传统的图像融合算法基于手工设计融合规则,算法复杂且运行速度慢,泛化能力及鲁棒性较差。随着深度学习在图像融合上的应用
获取大型的带注释数据集是非常昂贵的,需要从现有标签的数据集到未标记的数据的转移过程。然而,特定应用程序相关的数据通常与公开可用的数据集不同,因为这些特定的数据是来自不同的领域。虽然域自适应在利用源领域的标记数据来学习未标记目标领域的精确分类器方面已经取得了巨大的成功,但是这些域自适应算法都是在源域与目标域具有相同类别,利用标签丰富的源域信息对标签稀少且分布相似的目标域数据进行迁移学习。然而,由于现
随着中国传统文化逐渐走向世界,在数字化平台传播、宣传、弘扬中国非物质文化遗产也成为了学界和产业界共同努力的目标。因此,以中国传统文化、传统艺术、非遗文化为主题的应用程序层出不穷。而江苏宜兴的传统紫砂文化在数字化平台上一直处于发展的初期,其界面以图文介绍和商品交易为主要功能,界面的视觉设计也显得相对简单。在以文化传播为主要功能的应用程序案例的借鉴下,在图形化界面和动画交互界面的发展现状下,论文试图通
专利文本记录了大量的科技成果信息,受到了人们的高度关注。随着互联网的快速发展,专利文本数量不断增多,如何从纷繁冗杂的专利文本中高效地抽取其中关键特征一直都是自然语言处理的基础研究问题。然而,现有的面向专利文本的特征抽取还未取得十分令人满意的效果,对专利文本特征抽取的准确度需进一步提高。针对以上问题,论文提出一种无监督的融入公共知识的TextRank专利关键词提取模型,该模型有效地利用了先验公共知识
随着我国汽车制造和智能交通领域的发展,汽车智能化水平逐年提升。在汽车价格平民化与道路条件标准化的背景下,汽车已成为人们工作和生活中的重要工具。然而,汽车的大量使用也产生了一系列的负面影响和安全隐患,例如上下班高峰严重的交通堵塞,频发的交通事故等。如何通过安全辅助驾驶系统预防和减少交通事故的发生成为了学界日益关注的核心焦点。其中,基于双目视觉的障碍距离检测和车道线检测是该领域的热点问题,本文设计开发