基于视觉认知机理的交通场景目标检测算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zhang328061832
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标检测是生物视觉和计算机视觉的核心任务之一。视觉目标在场景中的位置和大小分布与场景结构之间存在着较强的规律性,充分利用场景结构信息有望显著提高复杂场景中目标检测的性能。同时,在视觉神经科学领域,一些研究已经证明了场景结构与目标之间的关联性,能够加速视觉搜索并提高搜索的准确性。鉴于交通场景具有更稳定的空间结构分布特性,并基于目标分布与场景结构的关联性,本文面向交通场景下的目标检测任务,探索场景结构信息对目标检测的引导或约束机制,以建立更有效的交通场景的目标检测模型。因此,本文首先基于交通场景空间结构信息,设计了基于场景结构的候选区域生成算法,验证了交通场景结构引导目标检测的有效性。此外,本文基于语义分割结果建立交通场景结构信息编码(如消失点、道路边界等结构信息),并将其融入到目标检测的神经网络中,以提升网络模型对不同类别和不同尺度的目标的检测性能。主要研究内容包含以下两个部分:(1)本文首先利用消失点检测算法等提取了交通场景的主要结构信息,并利用场景结构与目标分布关系作为先验信息,设计了自适应的目标候选框选取方法。结合典型的候选区域生成算法(如Edge Boxes算法),本文建立了基于场景结构的目标候选区域筛选方法。实验结果表明,在交通场景结构的引导下,基于场景结构候选区域选择方法能够基于更少的候选框,实现更准确的潜在目标区域选择,证明了场景结构信息促进目标检测的重要作用。(2)此外,本文进一步结合深度学习技术,首先利用语义分割网络获取交通场景主要元素(如路面)的分割结果,并建立场景空间结构表征。然后,本文基于目标检测网络,建立了融合目标与场景结构关系的多任务网络模型,通过预测目标与场景关系提升网络模型的目标特征表达能力。实验结果表明,融合场景结构信息的目标检测网络能够提升不同类别、不同尺度的目标检测性能。
其他文献
基于矿山生态修复的基础理论研究、生态修复技术、修复效果评价以及生态修复效益研究4方面的矿山生态修复研究现状,研究总结得出结论:应建立更为科学合理的生态修复体系和长效管理监测机制,使矿产资源开发与生态治理协调发展;加强多学科多领域间的协同创新合作,提高矿山生态修复理论研究和工程实践间的贴合度,因地制宜地制定科学合理的修复方案,并建立符合需求的矿山生态修复效益效果评价体系;矿山生态修复中需加强局部针对
期刊
科技会议中通常会出现大量的专名与术语,而这类特殊的名词,由于指向性明确,专业性强,往往有固定的译法,一直是口译中的难点。笔者在“城市能源转型”模拟会议中遇到了大量的专名如地名、机构名,以及能源领域的科技术语。尽管会前对部分词汇进行了准备,口译时依旧出现了错译、漏译等问题。由此可见,科技会议中专名及术语的汉译,除了译前准备外,还需要掌握其它的口译策略。笔者将模拟会议中的译语分为成功案例及错译漏译案例
学位
口译具有即席性,要求译员迅速准确地将意思传达给听众,同时还要保持语句通顺流畅。译员在经受较大的脑力负荷和心理压力下难免会出现语句不通顺的情况,出现中断语流、自我修正的现象。虽然准确性有一定提升,但频繁自我修正影响译语效果。本文以“埃隆·马斯克的世界构想”模拟会议口译实践为例,通过录音及转写译语,挑选出具有代表性的自我修正现象实例,总结分类、分析问题,进而提出优化方案。借鉴唐芳(2020)的分类对错
学位
带稿同传是近年来各大国际会议普遍采用的口译形式,要求译员同时协调听觉信息、视觉信息、短时记忆、译语输出等多项任务所需要的精力资源。而汉语长难句因其高密度信息、复杂结构的特征,一直是中韩口译中的重难点。带稿同传虽然能通过文本减轻短时记忆负荷,但其高语速进一步加大了长难句口译的难度。本文以2021无锡跨国公司深化合作论坛为案例,分析笔者在带稿同传中处理汉语长难句时出现的问题,并给出相应的处理策略。经总
学位
在交传中,译员常常因为自我修正过多、语义重复、啰嗦赘述或是自身不良的语言习惯导致译语冗余,从而也影响了听众对于原文的理解,影响译员整体口译质量。此外,当演讲者讲话时长变长时,如何保证信息准确高效的记录,如何快速对信息密集的原文进行准确总结,如何克服长时间记录造成的记忆压力,以及如何应对现场紧张感保证有效准确的翻译,是本文探讨的重点。口译并非是孤独的自说自话之旅,作为双方的传声筒和沟通的纽带,译员需
学位
注意缺陷多动障碍(Attention deficit hyperactivity disorder,ADHD)是常见的神经发育障碍类疾病之一,关于ADHD的神经机制一直存在争议,例如有人认为是额叶的发育滞后,也有人认为是神经脑活动的异常,但多数研究中样本量较少,缺乏可靠性,研究方法较为陈旧。本文以ADHD-200数据库作为数据源,探究大样本下大脑皮层形态与功能的差异,以及构建形态相似网络与功能连接
学位
农业在国民经济中发挥着基础性、根本性作用。“创新、协调、绿色、开放、共享”的五大发展理念为新时期农业经济发展提供了原则和导向。现阶段粗放的、不可持续的农业发展方式应当通过提高技术水平、优化产业结构、扩大市场开放、提升收益能力加速转变,实现农业高质量发展。美国农业在技术、产业、效率、竞争力方面拥有巨大优势,其现代化手段和路径能够为我国农业发展提供有益启示。本文从技术创新、产业协调、生产绿色、市场开放
期刊
精神分裂症是一种常见的严重精神障碍,往往伴随着认知异常和情绪功能障碍等临床症状。目前,已发现患者大脑的结构及功能连接障碍与其潜在的病理生理学机制具有内在联系。模块作为复杂脑网络的重要组成,在精神分裂症病理机制中的作用尚不清楚,而且结构和功能之间的关系是否存在异常,以及是否依赖于模块仍有待研究。本文首先利用弥散磁共振成像构建基于白质纤维束的大脑结构连接网络,并探究了精神分裂症结构脑网络中模块组织的变
学位
磁共振成像(Magnetic Resonance Imaging,MRI)是用于人体组织器官成像的影像技术,由于其无电离辐射损伤、多参数成像且软组织成像对比度高,已迅速发展成为生物医学中一种重要的应用技术。空间分辨率是MRI关键成像参数之一。高分辨率MRI图像为人体器官和组织成像提供了丰富的结构信息,有利于临床医生精确诊断和后续的图像处理任务。然而,MRI图像的分辨率受到硬件配置、扫描时间、信噪比
学位
同声传译是一项时间紧迫、信息密度大的工作,对于译员的短时记忆能力、听辨能力、反应能力和抗压能力等多方面的能力要求较高。因此,在进行同声传译的过程中,要想实现逐字逐句的精准翻译几乎是不可能完成的任务。笔者在实践中发现,在进行韩中同传的过程中经常会出现省略现象,例如在演讲者发言信息重复、口误后进行自我修正、出现前文已知信息时,笔者通常会选择抓住主要信息和句子结构,对无用信息或次要信息进行有意识地省略。
学位