基于场景结构的夜间交通图像视觉注意模型

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wangli7313981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
交通场景中的视觉注意预测是帮助理解人类视觉认知过程和设计智能辅助驾驶系统的重要途径。这在自动驾驶、目标搜索等任务中具有重要作用。然而对于夜间交通场景来说,更复杂的光照问题让视觉注意预测面临巨大的挑战。即使对于日间交通场景表现优秀的深度学习类方法,不同光照情况下的鲁棒性也尚未解决,如白天场景到夜间场景。高效的注意分配对于人类视觉系统来说似乎毫不费力,但对计算机来说却如此困难。对此,视觉神经科学领域已有研究证明场景引导对于人类视觉注意分布的重要作用,而目前的注意预测方法大多为局部底层信息或表面纹理,难以应对内容复杂但结构简单的夜间交通场景。本文通过提取稳定的交通场景结构,再结合眼动实验形成基于场景结构的注意先验,通过场景先验引导局部信息提取,实现跨光照状况稳定的高性能夜间交通场景注意预测。本文基于场景结构信息对视觉注意的引导机制、视觉注意路径对注意分布的影响等研究,建立了基于场景结构分析的计算模型用于提高夜间交通场景显著性计算性能。本文主要研究内容包括以下两个部分:(1)研究注视点转移路径与注视点分布关系,并以此建立模型提升视觉注意预测性能。本文首先设计实验采集眼动数据建立夜间交通场景下的无任务眼动数据集。然后,统计分析了人眼在观察和分析场景时,注视点的转移策略,以及转移路径与注意分布的关系。建立模型模拟注视点转移过程,根据注视点转移路径,建立模型优化现有视觉注意预测模型的性能,使之更加符合真实人类视觉系统注意分布。实验证明,基于注视点转移路径的注意增强模型对于自底向上类注意预测算法有明显提升作用。(2)研究交通场景结构与注视点分布关系,并基于视觉引导机制,建立交通场景结构引导下的视觉注意预测模型。本文首先通过统计分析无任务眼动数据集,研究夜间交通场景下场景结构与注意分布的关系。然后,对于光照不足、图像细节损失严重的夜间交通图像,利用简易方法提取的边缘,准确地构建出基于消失点和道路边缘的交通场景结构。最后,结合眼动数据的先验信息与场景结构,即可得到基于场景结构的先验信息,再采用机器学习方法融合图像底层信息,便构建了一种基于场景结构的注意预测模型。实验证明,面对交通场景中复杂多变的情形(如日夜转换),基于场景结构的算法都能保持良好的稳定性。
其他文献
涡旋电磁波因其携带的轨道角动量和螺旋相位波前而以一种新的复用方式出现,可从根源上解决复用通信中速率和信道容量问题。另一方面,电磁波在地质勘探、石油探测、卫星通信、光学元件设计等诸多领域中经常会跨越不同媒质传播。因此,本文研究涡旋电磁波在分层介质中的传播特性是非常有意义的。首先,贝塞尔涡旋光束作为一种体波,是由一系列平面波叠加构成,通过矢量角谱理论和傅里叶变换得到了贝塞尔涡旋光束电磁场的角谱形式。经
全息阻抗调制表面作为一种超表面人工电磁材料,能够根据馈源辐射波进行调控,得到目标辐射波束,基于此特点,有望代替传统的相控阵天线,避免复杂的电控网络,实现波束扫描的功能。全息阻抗调制表面相较于传统的天线结构具有剖面低、馈电结构简单、成本低、易于加工、共形、可实现电磁隐身等优点,因此,对实现全息阻抗调制表面波束扫描的研究具有重要价值。本文从物理光学出发,利用光的干涉原理,将全息技术应用到电磁场领域,探
时域测井成像雷达天线已经应用在越来越多的探地工程中,因其具有较高的分辨率,雷达能够在很复杂的地质环境中工作并且探测范围更广,所以人们将越来越多的精力投入到时域测井成像雷达天线上。本文综合项目的实际需要以及时域测井成像雷达天线的设计要求,分别设计了偶极子全向发射天线、铁氧体定向接收天线以及圆柱共形单极子定向接收天线。本文首先描述了时域测井成像雷达研究的选题背景和意义、时域测井成像雷达的发展历史和国内
颅内动脉瘤是对人类生命健康危害最大的脑血管疾病之一,其症状不易发现,且发病过程紧急,具有很高的致死、致残率。因此,颅内动脉瘤的前期诊疗十分关键。目前针对颅内动脉瘤的检查方式主要有三种:计算机断层扫描血管造影(Computed Tomography Angiography,CTA)、磁共振血管造影(Magnetic Resonance Angiography,MRA)和数字剪影血管造影(Digita
介于传统微波和光通信之间的太赫兹频段,由于其在成像,传感和通信上的应用潜力正在受到越来越多的关注。在太赫兹频段,由于其高频高传输速率的特点,芯片之间的信息传输交互需求也极大的提升。但是传统的芯片I/O端口由于其带宽、频率以及效率的限制越来越无法满足现有的太赫兹系统的需求,太赫兹频段的片间互连逐渐成为了太赫兹系统的瓶颈之一。高效率,大带宽,较小的带内波动,成为了突破太赫兹片间互连瓶颈的主要难点。太赫
拉曼光谱是研究分子结构的有效手段。拉曼峰强隐含着电子与原子核相互作用的丰富信息。本论文重点以拉曼峰强为分析对象,用由拉曼峰强求取分子键极化率的方法,对吸附在电极表面的分子中的电子行为进行了研究。并提出了一个从拉曼峰强求取键极化率了解拉曼激发虚态电子结构的思路。用表面增强拉曼散射(SERS)实验方法,结合分子简正振动分析与键极化率理论,对单配位异硫氰酸合铬(III)络合物在银电极表面的吸附构型和表面
非经典感受野(Non-classical receptive field,n CRF)对经典感受野(Classical receptive field,CRF)的外周调节(Surround modulation,SM)作用是哺乳动物初级视觉皮层(Primary visual cortex,V1)神经元的基本特性。研究这种调节作用有助于理解视觉皮层对大范围图像信息整合的基本原则。前期对SM的研究,大
帕金森疾病是一种大脑神经退行性疾病,表现为典型的运动症状,如静止性震颤、强直和运动迟缓,以及一些非运动症状,如认知功能障碍、嗅觉障碍等。根据主要的运动症状,帕金森疾病可分为运动迟缓、强直主导亚型(AR)和震颤主导亚型(TD)。临床证据表明,帕金森疾病的不同亚型有不同的病程和预后。事实上,相对于TD亚型,AR亚型的临床进展更快,患痴呆症和其他精神疾病(如抑郁症)的风险更高,这表明帕金森亚型之间的神经
已有研究表明多种认知加工过程和其大脑机制存在性别差异,然而较少研究关注反应抑制的性别差异。反应抑制指在变化的环境中抑制不符合当前需要或者不恰当的占优势行为反应的能力,能够帮助人们对变化的环境做出灵活的、目标指向的行为。本文研究采用结构磁共振和静息态功能磁共振成像方法,采集结构和静息态磁共振成像(magnetic resonance imaging,MRI)数据,采用基于个体差异的方法,研究健康男性
视听多通道语音信息的整合是人类进行语言交流的关键。近年来,视听整合已成为科研工作者们的研究热点。然而,人们对视听多通道语音感知整合中的神经机制尚不完全清楚。随着神经成像技术的发展,特别是磁共振成像技术的广泛应用,为视听多通道语音感知整合机制的研究提供了可靠手段。本文将行为学实验与磁共振成像技术相结合,从任务态到静息态,从功能到结构,多角度对视听多通道语音感知整合机制进行探究。首先,本文基于任务态功