基于深度学习的人脸识别特征增强与度量学习算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:C12sdn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人脸识别一直是人工智能领域一个研究热点。相比于其他的生物鉴别方式,人脸识别在考勤、支付、进站、登机、特定对象监控等方面有着广阔的运用场景。当前最先进的方法,主要是基于卷积神经网络的深度学习的方法。已有的方法需要被识别对象有良好的光照条件,表情与姿势不能变化太大,不能有遮挡,在约束环境下,基于深度学习的人脸识别已超越了人类的识别能力。但是在非约束条件下,比如监控摄像头所录的视频,被识别对象具有侧面、被遮挡住、带眼镜或口罩、模糊、低分辨率、表情夸张、姿势变化大、光照变化大等多种变化,当前的识别模型和算法在这些变化下,不能获得高鉴别性的特征。此外,由于人脸检测和识别是两套不同的模型和算法,现有算法没有考虑两者的内在关联,检测结果差则识别结果也差,导致现有人脸识别算法鲁棒性差。此外,当前人脸识别系统大都基于很深的大型网络,不支持在嵌入式系统运行。因此研究基于轻量网络的人脸检测和识别方法,设计高鉴别性的特征表示至关重要。针对无约束环境下对人脸识别算法的需求,本论文在现有人脸检测和识别算法的基础上,重点研究基于深度学习的特征表示、特征融合与增强以及度量学习等关键技术。基于卷积神经网络,设计并实现了轻量的人脸识别流水线,包括多尺度的人脸检测器和基于模板的人脸识别器。测试结果表明,该Res Net-18模型准确率高,在IJB-C数据集上的平均精度、误识率和拒识率均接近骨干基准网络Se Net50,满足未来人脸识别系统的实时性与鲁棒性要求。论文的主要研究内容和创新点如下:(1)提出了一种新的锚框(Anchor)密集化的人脸检测方法。通过研究单一网络锚框匹配存在的问题,本文通过添加辅助网络,包括辅助的损失函数项,最终增加了预设锚框与参考标准框的匹配概率。通过在几个公开的人脸检测基准上进行的实验,验证了所提出的检测方法的有效性,该方法在世界最大自拍照上检测到892个人脸;(2)提出了一种卷积神经网络(CNN)的高层强语义特征与浅层高分辨率特征充分融合的方法。现有的特征融合方法直接对CNN不同层的特征图进行融合,存在着冗余与异常的特征值,不能保证融合了互补性与多样性的特征,因此融合后的特征未必对检测与识别有帮助。本文基于异构网络的特征互补性与多样性,提出了特征图的动态特征增强算法,该方法可以方便地集成到现有的CNN中。通过该方法生成的特征增强金字塔,提高了非约束环境下人脸特征的有效表示和提取能力,在TAR@FAR=0.1时,IJB-C上的人脸验证精度提升了16%;(3)提出了一种基于KL散度的度量学习方法。在基于模板的人脸验证问题中,传统方法是使用一组特征来表示视频或模板,其中每个特征都对应着某个图像或帧。这种方法对两帧视频相似性计算的复杂度高,内存消耗大,并且不能随着大量视频扩展。本文的度量函数包括两个分量:保真度约束和相似性约束。保真度约束条件计算了新学习的特征分布和原始特征分布之间的距离,使得新学习的特征分布逼近原始特征分布。相似度约束确保同一模板的相似度大于不同模板的相似度。根据前期人脸检测部分的得分,动态调整送到人脸识别系统的人脸。在IJB-C上验证了设计的度量学习算法,最终使得本文的轻量模型可以有效的在IJB-C上进行人脸识别,并且在TPIR@FPIR=0.01时精度提升了46%;(4)改进了现有的单次多盒检测器(Single Shot multibox Detector,SSD)检测网络的目标损失函数,提出了基于SSD的人脸姿势预测方法。该方法充分利用了SSD固有的分类与回归能力,避免了现有人脸姿势预测方法的高耦合和费时的缺点。采用分箱(bin)方法,将人脸偏转姿势的连续角度转成训练所需要的多个的特定类别,将3D角度回归问题转换为角度分类和人脸边框的回归问题,让模型直接输出欧拉角(偏航角、俯仰角和横滚角)。该方法在AFLW2000和300W-LP中预测的平均平均误差分别为6.01°和2.38°。本文研究了基于深度学习的人脸识别,基于现有的Arc Face,使用线性函数代替余弦函数,避免了Arc Face对于小模型要先从Soft Max开始训练的局限性。使用本文提出的特征融合与增强算法,以及基于KL散度的深度度量学习方法,针对由NIST发布的新基准数据集IJB-C,在具有完全姿态和光照变化的无约束环境下,本文基于Res Net-18的轻量模型在Rank-1的识别率从26%提升到了68%。
其他文献
研究背景阿尔兹海默病(Alzheimer disease,AD)是以进行性认知功能障碍和行为学损害为特征的神经系统变性疾病。病变以老年斑、神经元纤维缠结以及神经元变性死亡为主要病理特征。大量研究证实在AD临床症状出现前数十年,脑内已经出现特异性病理改变。现有研究认为,AD是包括主观认知功能下降(subjective cognitive decline,SCD)、轻度认知障碍(mild cognit
脑胶质瘤是中枢神经系统最常见并且致死率最高的恶性肿瘤。根据组织学外观,主要将其分为星形细胞肿瘤,少突胶质细胞肿瘤和室管膜肿瘤,并按照WHO肿瘤分级标准分为I–IV级,以表明其不同恶性程度。近年来,基因组学,转录组学和表观遗传学分析等方面的快速发展,使得脑胶质瘤的分类和治疗有了全新概念。脑胶质瘤中存在脑胶质瘤干细胞(GSC),它们不仅引发、维持恶性肿瘤的生长,还会导致治疗耐受的产生,包括对替莫唑胺(
第一部分MSC移植对急性肺损伤小鼠肺部树突状细胞免疫调控的研究目的评价小鼠骨髓间充质干细胞(Mesenchymal stem cells,MSCs)移植对急性肺损伤(Acute lung injury,ALI)小鼠肺部树突状细胞(Dendritic cells,DCs)功能的影响,并探讨相关机制。方法细胞实验:(1)提取小鼠骨髓来源单个核细胞,使用粒细胞巨噬细胞集落刺激因子、白细胞介素-4诱导为不
随着互联网、云计算、交互技术的迅猛发展,当今的大数据可视化不仅需要呈现海量数据信息,还包含了高时效、多维度的动态交互形式,但现有的大数据可视化鲜有考虑用户的认知需求,导致了用户在“读取”海量数据时大量有价值的信息被湮没在可视化的“复杂度”之中。因此,基于用户认知的大数据可视化复杂度研究是当前设计领域与数据可视化领域交叉研究中亟待解决的关键问题。本研究以用户认知为切入点,通过行为和生理实验方法,分别
在信息量复杂的可视化界面,即复杂信息界面中,若要提取复杂信息的层级结构和关联属性,视觉系统需要能够同时整合多种元信息。全局编码作为有效提取信息聚合属性的视觉统计手段,是提供总体感知的可行算法。而且在目前信息显示维度和数据维度日趋复杂的时代背景下,视觉特征重叠的全局编码感知正确率和精度是用户能否做出最优决策的重要指标。因此,对全局编码感知量化的研究能够为复杂信息界面的设计与评价提供更系统和全面的科学
城市地下空间大规模的开发与利用,对交通水利等基础设施的安全性、长期服役性能和防灾减灾能力提出了更高的要求。液化触发评估成为液化震害预防的首要任务,而无黏性土(砂土、粉土)的空间分布与原位状态是其非常重要的内容。多功能孔压静力触探(CPTU)是在天然位置对土体工程性质进行原位评价的一种新型测试技术,具有精度高、测试参数多元化等优点,在国际上被广泛用于无黏性土的状态特性评价与液化判别。相比于相对密实度
近年来,新型低模量β钛合金在医用植入材料领域的应用受到广泛研究。由于其还具有高弹性容许应变(σ0.2/E),因此在航空航天用弹性元件及可变机翼材料等方面同样显示出重要的应用前景。本文参照三大电子参数理论开发了低模量Ti-32.5Nb-6.8Zr-2.7Sn-0.3O(TNZS-0.3O,wt.%)合金。随后,系统研究了0、0.3和0.6wt.%三种不同氧(O)含量TNZS-xO(x=0,0.3,0
神经科学的一个重要问题是研究动物行为是如何产生并受基因和神经环路调控的。本能行为是一类不需要后天学习获得的行为,在发育过程中已经构建于神经系统中。在本能行为的分子与神经机制研究中,雄性果蝇的求偶行为和雌性果蝇的接受行为均是研究的最为透彻的模型,解析这些本能行为调控的分子与神经机制将深化我们对于行为调控的神经机制的理解。本研究以雌性果蝇的接受行为为研究模型,发现神经肽Leucokinin(LK)及其
几十年来,针对预制结构已有大量的研究和应用。通过使用施工质量好、可快速安装的预制构件,可取得良好的综合效益。然而,出于对其抗震能力的担忧,预制结构在抗震地区的应用往往受限。为此,各国研究人员开展了大量的研究来提高预制结构的抗震能力,特别是预制构件节点的抗震能力,并提出了一系列预制装配结构体系,如预应力混凝土装配整体式框架体系(世构体系)。对于预制混凝土结构,由于连接部位和后浇叠合层的存在,锈蚀介质
核子间相互作用作为强相互作用的一种,它在理解有限核以及核物质性质方面都是至关重要的。基于核子间相互作用而得到的核物质状态方程已经被广泛地研究。对称核物质状态方程经过长期研究和验证已经被了解得相对比较清楚,但非对称核物质的状态方程(对称能)的不确定性依然很大。特别地,通过核物理实验以及中子星观测数据提取的饱和点处的对称能斜率的不确定度非常大。由于饱和点处的对称能斜率的不确定性,不同模型预测的高密度的