【摘 要】
:
行人检测是计算机视觉领域的重点研究课题,在智能交通和自动驾驶领域有着广泛的应用。近年来,基于多光谱图像的行人检测方法由于结合了可见光图像和红外图像的信息,在全时段的检测环境中具有明显优势,已成为当前的研究热点。但由于交通道路场景的复杂多变,多光谱行人检测算法仍会受到光照和温度等环境条件变化的影响,要满足自动驾驶实际应用的准确率需求仍存在一定困难。本文针对多光谱行人特征的表达方式和融合方法进行研究,
论文部分内容阅读
行人检测是计算机视觉领域的重点研究课题,在智能交通和自动驾驶领域有着广泛的应用。近年来,基于多光谱图像的行人检测方法由于结合了可见光图像和红外图像的信息,在全时段的检测环境中具有明显优势,已成为当前的研究热点。但由于交通道路场景的复杂多变,多光谱行人检测算法仍会受到光照和温度等环境条件变化的影响,要满足自动驾驶实际应用的准确率需求仍存在一定困难。本文针对多光谱行人特征的表达方式和融合方法进行研究,主要的研究内容如下。(1)针对多光谱聚合通道特征对红外行人目标信息刻画不足和在昼夜不同环境条件下对目标的表征能力不一致的问题,提出了一种具有熵加权强度差异直方图特征的的昼夜分时多光谱聚合通道特征行人检测算法。以多光谱聚合通道特征算法为基本框架,提取特征时着重分析红外图像描述行人目标的优势,利用邻域像素强度差异估计和区域信息熵分析来改进原有的梯度直方图特征,构建新的熵加权强度差异直方图特征。由于受到环境条件变换的影响,多光谱特征在昼夜不同时段存在差异,算法利用自适应增强分类器对数据集中白天和夜晚图像分别进行训练,得到日用和夜用分类器。在检测阶段,利用图像的HSV空间直方图信息进行昼夜判别,实现对输入图像的分时段检测。仿真实验结果表明,所提方法在全时段的测试场景中的对数平均漏检率较原多光谱聚合通道特征算法下降5.93%,提升了行人检测器的性能。(2)针对传统多光谱行人检测网络在全时段交通场景中表现较差的问题,提出了一种具有注意力机制的渐进定位拟合网络多光谱行人检测算法。该算法在渐进定位拟合网络检测框架下,使用Res Net50附加一个卷积模块的双路主干网络提取行人目标的可见光与红外多尺度特征,结合通道和空间两种注意力机制对特征进行优化,并使用K均值聚类方法确定的默认候选框的尺寸以获取行人先验信息。另外,算法研究了检测网络可见光与红外特征层的最佳融合时机,以及注意力机制模块在网络中不同的作用位置对检测效果的影响。仿真实验结果表明,算法在全时段测试场景中的对数平均漏检率为11.87%,对于复杂交通环境中的行人目标具有良好的检测效果。(3)在渐进定位拟合网络多光谱行人检测框架的基础上,研究了可见光与红外特征的融合方式。基于可见光与红外特征对于全时段交通环境下光照变化敏感度的不同,提出了利用光照加权自适应融合特征的方法,使得检测框架能够提升对环境光照变化的适应能力;基于可见光特征信息与红外特征信息之间存在互补关系,提出了特征信息控制融合的方法,使得可见光与红外特征能够利用自身的特定信息作为权值进行加权融合以提升融合特征对行人目标的表征能力。仿真实验结果表明,利用光照加权自适应融合特征的算法使得原算法的对数平均漏检率在全时段测试场景下降2.01%,利用特征信息控制融合的方法使得原算法的对数平均漏检率在全时段测试场景下降3.28%。
其他文献
我国很多关于书法学习的教材和论著都是从二维平面的角度出发,将书法笔迹看作一幅静止不变的平面图像,但实际上书法笔迹是通过书写运动形成的运动轨迹。运笔速度和书写压力都是笔迹变化的最基本因素之一,也是常见的书写指标,可以用来衡量书法临摹时的相似程度。但是在传统的书法教学模式当中,普遍使用的都是手把手模式,也就是学生在观察并记忆教师书写时的力度、速度、布局及节奏等示范之后,再反复在字帖上进行临摹的学习方式
三维成像技术在当代社会应用广泛,在信息和生命科学领域中尤为突出。物体的三维信息对于人们正确认识和探知其结构、三维形貌等具有重要意义。随着近年科学技术水平的飞速发展,人们对提取物体三维信息的能力的需求也日益增长。现代三维成像也逐步向着高分辨、记录彩色图像、动态成像的趋势不断发展,对传统三维成像技术不断提出了新的挑战。近年来,人们相继开发出许多全新的三维成像技术,其中包括全息术、激光扫描共聚焦显微镜、
图像分割作为目标分析与识别、目标跟踪等高级图像处理操作的一项基础且关键的步骤,其分割结果的好坏直接影响后续处理操作。现有的图像分割算法可根据人工参与与否,将其分为交互式分割和自动分割。前者由于其良好的分割性能,得到了广泛的应用。但当面对的图像数据量较大时,相应的需要消耗更多的人力且较费时,无法满足实际需求。近年来,基于视觉显著区域检测算法的研究取得了不错的成果,许多研究人员将其与已有图像分割算法结
视频多目标跟踪主要利用视频上下文信息,对多个目标的外观信息和运动信息建模,实现对目标运动状态的预测和更新,并标记出目标轨迹。视频多目标跟踪涉及了深度学习、机器学习、最优化算法等多个方面的理论知识。随着计算机硬件和数学理论的发展,各种视频多目标跟踪系统纷纷实现,尤其广泛应用于行为识别、交通监控、智能驾驶、人机交互和无人机监控等,在视频目标跟踪领域的深度和广度上有着不同程度的应用。本文围绕随机有限集在
针对目前自然场景图像中的文本检测存在的问题,本文对自然场景图像中的文本检测方法进行研究。本文设计了基于卷积神经网络的端到端的文本检测框架,实现提高文本检测精度、降低检测模型复杂度的目的。本文的主要研究内容如下:1.基于自适应特征选择和尺度损失函数的文本检测方法。日常生活中的文本非常多样化,并且存在许多杂乱的背景,为了解决这些问题,本文提出了一种自适应特征选择的神经网络。这个网络由两个部分组成,第一
近年来伴随各类社交与电子商务平台迅速发展,网络上用户生成内容出现爆炸式的增长。用户在社交平台与电商平台发表的评论中,包含了大量的文本信息,往往从多个方面反映了其对某些事件或者商品的情感倾向。分析这些包含情感极性的信息,能够有效帮助商家改进产品和改善服务,供政府相关部门了解舆论情况,以制定相应政策,同时也能让其他用户了解事件的社会评价。文档级情感分析方法能够获取整个文本的情感极性,但难以感知文本中不
自上个世纪六十年代,人脸识别初次在数字图像处理领域中崭露头角,已走过长达半个世纪的发展之路,识别研究也从单一的仿真环境到适应多种多样的复杂环境、也从简单且光照充足无变化的正脸图像到多种表情变化,大年龄跨度以及多重遮挡的人脸。虽然发展至今,在特定的约束环境下,现有诸多人脸识别算法可以取得优秀的识别效果,但若应用至实际生活中,剥离设定好的特定环境,面对现实生活中的低分辨率人脸往往识别性能不够理想。本文
21世纪以来,随着人民生活水平的提高,人民对于衣物的需求量越来越大,也促使织物的产量变得越来越大。为了满足这种现状,织物的生产过程逐渐智能化,其中,一个关键环节就是对织物缺陷进行检测。现在国内大部分企业选择传统的人眼检测法,但是这种方式易受检测人员的主观影响,同时也极其考验检测人员的体力与眼力,因而造成了检测效率及精度低下的后果。为了解决上述问题,越来越多的学者将机器视觉技术应用在缺陷检测领域,且
近年来,车外抛物问题越来越受到社会各界的关注。车外抛物这种不文明现象给交警部门以及市政部门及时清扫带来巨大挑战。如何有效地解决车外抛物问题已成为交警和市政部门亟待解决的问题。尽管深度学习的研究已经取得了很大的成就,并已广泛应用于各种场景(如:车牌识别和交通流量预测),但仍有许多问题尚未完全解决。例如,如何及时有效地检测出交通领域内车外抛物的问题仍然是一个亟待解决的问题。一般来说,传统的方法(如:支
互联网上产生大量的非结构化文本数据,如何有效的从这些非结构化的文本数据中挖掘并抽取实体和关系信息就要涉及到实体关系抽取研究;这对知识图谱和自动问答等下游应用的构建具有较强的理论意义和实用价值。本文主要以Transformer特征提取模型为基础,通过对现有实体关系抽取模型的改进,提高实体关系抽取的性能。主要研究内容如下:(1)针对Transformer模型在实体关系抽取任务中性能不佳的问题,本文抛弃