移动端实时人体实例分割算法研究及部署

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:woxuejavalala
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体实例分割旨在对图像中的每一个人体都给出像素级的识别结果,是计算机视觉领域的一个重要研究问题,在手机等移动终端上具有良好的应用价值。本文基于业内主流的Yolact方法设计了一种能在移动终端实时运行且具有较高精度的人体实例分割算法,命名为Yolact Mobile,算法主要做了两个方面的改进:(1)针对多尺度人体特征难以准确表达的问题,本文在主流的人体实例分割模型Yolact框架基础上提出了更优的特征金字塔网络(FPN),在经典的自顶向下特征传递网络中将全局特征信息融合到深层特征中,并引入自底向上的特征传递网络,充分融合多尺度特征图中的语义信息和位置信息。在推理速度基本不变的条件下,改进的FPN网络在COCOPersons数据集上取得了1.1%的掩码精度提升。在改进FPN的基础上,本文进一步针对人体实例分割引入排序损失函数,将掩码精度相比于原始Yolact模型提升了2.8%。(2)针对视频人体实例分割中视频帧之间存在视觉冗余而导致不必要的计算的问题,本文设计了两种基于关键帧(本文设置每5帧中的第一帧为关键帧)特征传播的高效率视频人体实例分割方法,通过将关键帧特征传播至非关键帧从而减少非关键帧特征的计算耗时。第一种方法根据估计出的帧间偏移对关键帧的特征应用可变形卷积从而得到传播后的特征。第二种方法使用轻量级光流网络估计出两帧之间的光流从而将关键帧的特征传播到非关键帧。本文提出的特征传播方法使得每帧图片的平均推理耗时在移动端相比于Yolact模型减少20.7%。综合以上算法设计,本文在搭载高通骁龙778G芯片的安卓手机上部署了量化后的Yolact Mobile模型,并将其与当前业内领先的移动端人体实例分割模型在You TubeVIS-Persons视频实例分割数据集上进行对比。实验结果显示,Yolact Mobile在精度和速度上全面超越了Yolact模型,相比于相关工作Yolact Edge,Yolact Mobile在仅增加2毫秒推理耗时的情况下取得了3个点的掩码精度提升,克服了Yolact Edge模型特征传播误差较大的缺陷。
其他文献
目的:了解断流术在治疗门脉高压症(portal hypertension,PHT)的临床现状,评价其效果和安全性,以期为PHT外科治疗的改进提供参考。方法:回顾性分析1996.07.01至2016.06.30华中科技大学同济医学院附属同济医院行断流术病例,收集临床资料;统计围术期死亡率、并发症发生率、术后门静脉血栓形成(portal vein thrombosis,PVT)发生率,并将前后10年病
学位
遥感图像目标检测是目标检测的一个重要分支。近年来,随着卫星图像的分辨率提高和无人机技术的发展,遥感图像目标检测的重要性日益上升,在民事、军事中都发挥着重要作用,如测绘制图、交通建设、灾害监测和军事解析等。不同于一般目标检测,由于遥感图像分辨率高、目标多样、背景复杂等特点,在检测中会面临以下问题:一是可能出现较多尺寸小且分布密集的目标;二是俯视视角下目标的方向是任意的;三是广阔的视野拥有复杂的背景,
学位
第一部分肥胖与甲状腺抗体及高促甲状腺激素血症的相关性分析目的分析肥胖与甲状腺抗体及高促甲状腺激素血症的关系,比较不同肥胖指标对甲状腺抗体及高促甲状腺激素血症的预测价值。方法采用整群随机抽样方法,在湖北省武汉市华中科技大学社区和宜昌市夷陵区抽取居民2698人为调查对象。受试者的年龄包括18岁及以上。对每个受试者进行问卷调查和体格检查,同时测定了促甲状腺激素与抗体、血糖、糖化血红蛋白、血脂和尿酸等血液
学位
2021年新《著作权法》对广播权制度的修改,在一定程度上弥补了之前我国传统广播权制度的不足,使其与信息网络传播权的关系更加协调,体现了技术中立的立法原则,且在权利控制范畴上有所扩大,使广播权制度更加科学,但有关广播权的权利范畴并不明确。本文将采取历史研究和比较研究的方法,梳理传统广播权制度向综合广播权制度演变的历程,并将广播权与信息网络传播权以及其他传播作品的专有权利做横向比较,揭示出我国广播权权
学位
近些年来各种定位技术层出不穷,例如Wi Fi定位、超带宽(Ultra Wide Band,UWB)定位等等。以上技术通常需要部署多个基站。近年来,一些特定场合提出了轻量级、单基站部署的定位需求,以减少定位系统部署的负担。本文基于蓝牙信号,提出了一种基于蓝牙单基站的测向-测距-测速的联合定位方法。此外,考虑到可穿戴定位标签中通常已包含低成本、低功耗的惯性测量单元(Inertial Measureme
学位
21世纪以来,城市化以前所未有的速度推动了城市发展,改变了历史城区的整体环境,历史保护与城市发展的矛盾日益突出,产生了一系列文化遗产保护问题。作为我国城乡历史文化的重要载体,历史城区的整体保护具有重要的意义和使命,在中华文明体系中扮演重要的角色,同时也逐渐成为推动城市创新发展的动力。在新时代的背景与需求下,如何整合历史城市的历史空间资源,化解保护与发展的矛盾,使历史城区以一个整体的方式,融入现代城
学位
随着我国经济的高速发展和科技水平的提高,异常检测技术在工业质检、视频监控等领域扮演着越来越重要的角色。目前,随着计算机视觉技术的发展,异常检测技术也在不断取得突破。然而,现有算法仍存在许多问题亟待解决,如计算量较大,难以满足实时性需求;模型需要大量的样本及时间进行训练,难以满足实际场景需求。本文充分调研了异常检测、高效学习等领域的相关研究,对异常检测任务中存在的问题进行了探究,主要工作内容及创新点
学位
计算机视觉领域,图像语义分割是热点研究问题之一,其研究成果被广泛应用于自动驾驶、智慧医疗等场景。在一系列算法中,基于深度学习的语义分割算法是目前的主流。在算法实际部署的过程中,业界对轻量级语义分割网络的需求愈发迫切,针对计算资源受限场景下的语义分割主干网络设计是其中的一个研究方向。主干网络在深度学习算法中扮演着重要角色,主要用于提取输入图像的信息,为下游任务提供多尺度特征。Transformer网
学位
近年来深度学习方法在医学图像分割领域取得了显著成效。然而,深度学习分割模型的性能高度依赖于训练样本的标签质量。医学图像的像素级标注依赖于专家的经验,十分耗时且容易出错,导致训练样本不可避免存在大量标签噪声,严重影响分割模型的性能。如何消除标签噪声对分割任务的干扰仍面临挑战,是目前的研究热点方向。医学图像分割场景中的标签噪声主要包含两类:1)由标注者的疲劳或粗心导致的随机标签噪声;2)由于目标结构复
学位
在新一轮科技革命和产业变革的背景下,快速发展的计算机技术与传统汽车行业深度融合,智能汽车成为产业发展的战略方向。作为智能驾驶关键技术中的数据前端,车辆感知系统利用多种传感器收集数据,并以此为基础进行算法分析,提取有价值的外部环境信息,供车内乘员及辅助驾驶系统做出驾驶行为决策。本文主要研究设计和实现一个车辆多模态视觉感知系统,选用可见光与红外摄像头作为视觉传感器,以此为基础实现像素级和语义级的外部环
学位