基于图像生成的半监督行人检测算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:candyshelly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行人检测在自动驾驶等领域有广泛应用,但是因为标注数据的成本较高,半监督行人检测算法的研究因此被提出。本文对半监督行人检测算法进行了研究,并提出基于图像生成来扩充行人检测数据,提高半监督行人检测算法的性能,包括以下方法:(1)从外部场景收集数据,但会存在两个问题:一、用风格不一致的外部场景的数据训练模型,模型最后在目标场景下测试时会产生偏差;二、外部场景的数据没有标注,图像中的行人可能未对齐。因此本文提出了场景自适应和内容实例调整模型(Scene-Adaptive and Content-based Instance Modification,SACIM),通过风格迁移模块和内容调整模块得到高质量的外部场景行人图像,用于训练分类器,筛选伪标注,得到更好的行人检测模型。(2)生成行人图像能够覆盖行人检测中未出现的新样本,提高半监督行人检测的性能。为了生成更丰富多样的行人样本,本文提出半监督分层正则化生成对抗网络(Hierarchical Regularized Generative Adversarial Network,Hi R-GAN),实现可控的行人生成。生成行人使分类器保留下质量更高的伪标注,最后重新训练行人检测模型,为行人生成和检测的效果带来可观的增益。(3)本文还提出了语义自适应多尺度半监督行人生成与检测模型(Sematic Adaptive Multi-scale Semi-supervised Pedestrian Generation and Detection,SAMPed),生成的图像用于辅助半监督行人检测,并针对伪标注的位置进行数据扩充。为了适配行人检测中大小不同的行人,本文还采用多尺度生成模块生成行人,并以行人掩码分割行人前景,填补进伪标注框中,减少伪标注的误差。本文通过在多个数据集上的实验,证明了所提出方法的在不同情况下的效果均超越以往的半监督行人检测算法。
其他文献
近年来,知识型回复选择任务引起了很多研究人员的关注,其目标是根据给定的对话上下文和背景知识,从候选回复集合中选择最适合的回复,与用户进行自然而有意义的交流。随着深度学习技术的发展,当前针对知识型检索式对话系统的研究取得了一定的进展,但仍存在一些不足:(1)当前许多研究基于预训练词嵌入或预训练模型蕴含的通用语言知识对文本建模,未能有效利用知识型对话语料的语言知识;(2)采用串联编码的Cross-en
学位
可充电锂氧电池由于其超高的理论能量(3,500 Wh kg-1),成为最有潜力的下一代储能电池。然而在锂氧电池的实际应用过程中面临着许多挑战:缓慢的ORR/OER动力学导致往返能量效率低、电化学不稳定导致循环性能差、负极枝晶和腐蚀带来安全隐患。氧化还原介体(RMs)作为一种可溶性催化剂应用于有机系锂氧电池,可有效提升ORR/OER动力学,降低充放电反应过电位。不幸的是,RMs在电解液中的穿梭效应通
学位
图像翻译任务是医学成像领域的一个重要任务,它对放射学有着极大的临床意义。在临床实践中,为了更好地掌握患者的情况,医生通常会使用多种医学成像技术获取多种模态的医学图像,以进行全面的诊断。与单一模态的医学图像相比,成对的多模态医学图像可以提供互补的信息,从而帮助医生对关注的目标区域(Region of Interest,ROI)做出更加全面和精确的诊断。然而,实际情况中由于多方面因素(仪器、辐射、反射
学位
在医学图像处理和分析领域,医学图像分割是一个十分重要的任务,它是图像引导手术、计算机辅助检测和医学数据可视化中的关键步骤之一。近年来,随着深度学习理论和实践的发展,基于深度学习的算法在医学图像分割领域取得重大的突破。在医学成像过程中,受硬件和时间成本的限制,各向同性医学图像数据的收集比较困难,在大多数的情况下仅有各向异性的数据可以使用,然而,由于各向异性的医学图像在各个方向上的分辨率不一致,深度学
学位
随着云计算的发展,将压缩后的图像外包给云服务器以解决图像容量爆炸的问题已成为一种趋势。图像中包含了用户的隐私信息,直接将图像上传到云服务器会增加隐私泄露的风险。为保护隐私,通常的方法是在上传前对图像进行加密。但加密操作不仅会影响图像相似性检索精度,还会破坏图像像素之间的相关性,降低压缩性能。为有效提高图像数据的存储效率,同时又能保护图像的隐私信息和可用性,本文提出一种支持相似性检索的图像压缩和加密
学位
在互联网与人工智能飞速发展的当代,表情编辑的研究对相关领域都有着重要意义,特别是对信息安全、人脸研究、人机互动以及社交娱乐等领域的发展都有着积极的促进作用。然而由于人脸数据中身份属性的影响,深度学习模型会遇到特征耦合以及面容混淆等问题,导致模型为了生成真实度高的拟合样本将面临巨大挑战。因此开展表情编辑的研究,促进其生成更高质量的拟合样本的需求愈发迫切。本文以条件生成对抗网络为基础框架,针对表情编辑
学位
生物特征识别已经成为认证系统中应用最广泛的技术之一。随着云技术的发展和推广,越来越多的生物识别系统采用数据库外包的方式来高效存储大规模图像数据库。由于生物特征数据的唯一性和持久性,一旦泄露,攻击者可以很容易地访问用户设备或获取用户的敏感文件和财产。因此,用于保护生物特征数据的隐私保持的生物特征识别应运而生。哈希二值表示由于其输入为高维实值域,输出为低维二值域被认为是一种安全的转化方式,广泛地应用于
学位
随着石油和煤炭等一次能源的枯竭,以及太阳能、生物质能和潮汐能等新型可再生资源的利用,研究人员将优先探索高效、清洁和可持续的储能和供电技术。超级电容器(也称为电化学电容器)因其能量密度高、充电和放电速度快、循环性能好和温度范围宽而具有广阔的发展和应用前景。具有核-壳结构和高质量负载的电极材料在各种重要的储能系统中显示出巨大的潜力,而赝电容材料的实际电容值已经日趋接近其理论值。然而,制备同时兼具高质量
学位
低表面张力的油类易粘附在基材表面,且难以从表面清除,给人类生产和生活均造成严重的油污污染。由于绝大多数油污染均始于表界面,通过对表面结构和组成的调控与改性,可有效阻止油污染。因此,开发耐久、高效且适合批量化制备的疏油涂层在防污、自清洁、防腐蚀、油滴输送、油水分离等领域均具有广泛的应用需要。疏油涂层通常由重入结构和低表面能化学成分协同作用组成。但构建疏油涂层的重入结构通常存在制备工艺复杂、稳定性差、
学位
随着人类社会的发展,全球能源需求不断增加。目前,能源供应仍以化石燃料为主,这不仅导致全球不可再生能源的枯竭,还会引起由于CO2浓度快速上升带来的全球变暖等环境问题。因此,开发清洁能源和调控CO2浓度已经成为一项关乎全球生态稳定的重大议题。从源头上调整能源使用比例,大力开发如氢能、风能、太阳能等可再生能源和对大气中的CO2进行捕集储存并进一步转化为工业化学品和低碳燃料是一种有效策略。通过共价键连接的
学位