基于多帧的视频下深度人脸识别技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:huanhuan40705
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能化和自动化的发展,人脸识别技术通过其非接触性、高识别率、安全性等特点,成为人工智能落地最快的算法之一。目前工业界主流的人脸识别算法都是针对静态图像的,视频相对于图像包含的语义信息更加丰富,直接利用视频序列进行识别,不仅更高效,鲁棒性也更强。
  本文提出了一整套完整的视频人脸识别算法,针对人脸检测模块,受目标检测领域启发,利用RFB模块和深度可分离卷积,设计了轻量级的单阶段多尺度多任务人脸检测器,可以同时完成人脸检测和人脸关键点定位,在速度和精度上均表现良好;针对人脸跟踪模块,利用实时多目标追踪SORT算法结合快速人脸检测,在多种视频分辨率和不同视频场景下均可以达到实时人脸跟踪的效果;为了提高数据集图像质量,帮助人脸识别模型的训练,设计了基于表现的人脸质量评估器,利用第三方人脸特征提取器选择在人脸识别任务上表现好的图像,利用简单高效的卷积神经网络进行回归预测,预测结果和人眼感知分布大致接近;设计了一套视频人脸数据集自动标注算法,对于跟踪得到的视频人脸序列经过人脸质量评估算法和人脸聚类操作,合并同类数据,去除离群点和低质量图像;对于视频人脸特征提取阶段,采用高效的时空非局部注意力机制以及特征池化层进行视频级特征提取,同时利用分类交叉熵损失函数联合改进后的度量性损失函数进行监督训练,保证模型提取的特征紧凑,具有判别力,在视频人脸识别基准测试集YouTubeFaces上达到了96.31%的准确率。
其他文献
背景:  肺癌是对人类健康和生命威胁最大的恶性肿瘤之一,其每年的发病率和死亡率在所有类型的癌症中是增长最快,且呈逐年上升趋势。人类基因组中98%以上的基因属于非编码RNA(non-codingRNA,ncRNA)。LncRNA是一种至少拥有200个核苷酸的一种不编码蛋白质的RNA。大量研究表明,肿瘤的形成和演进和lncRNA的异常表达有密切的关系。LncRNA的表达在肿瘤组织和细胞中相对于正常的组
学位
植物叶片衰老是一个受到严格遗传调控的程序性细胞死亡过程,受到各种內源信号和环境刺激的影响。丝裂原活化蛋白激酶(Mitogen Activated Protein Kinase, MAPK)级联是真核生物中高度保守的信号通路。在拟南芥中,两个功能高度冗余的MAPKs(MPK3和MPK6)及其上游两个功能也高度冗余的MAPKKs(MKK4和MKK5)组成一条信号级联,在植物生长发育以及免疫反应等生物学
学位
自噬是真核细胞中高度保守的依赖于溶酶体的一种降解途径,能够降解细胞内异常聚集的蛋白以及细胞内受损的细胞器。自噬的异常和人类许多疾病的发生密切相关,如:神经退行性疾病,代谢类疾病及肿瘤等。自噬的发生过程主要分为四个阶段:自噬的起始,自噬体的延伸与闭合,自噬体和溶酶体的融合,自噬底物的降解。这些过程由一系列自噬相关蛋白参与,并受到细胞内自噬诱导信号的调控。近年来研究发现,自噬相关蛋白受到乙酰化修饰的调
目的:本次研究主要利用CRISPR/Cas9基因编辑技术在体外建立SCN1A基因稳定敲除的细胞系并采用RNA-seq分析细胞的基因表达谱的变化。通过检测mRNA水平的变化分析SCN1A与DS发病之间的关联,并希望为Dravet综合症的治疗提供一些线索。  方法:①根据SCN1A启动子区序列设计sgRNA,并构建CRISPR/Cas9敲除质粒(pX459-SCN1A)。②将pX459-SCN1A质粒
学位
随着互联网的普及,人们之间的交流可以通过语音视频等更为直观和更具表现力的方式实现。未来随着5G技术的推进,网络、车载视频、安防和体育录像都将出现井喷式增长,这使得视频内容理解和处理工作面临着巨大挑战。  本文便是在这一研究背景下,期望对复杂视频的内容进行缩减,实现紧凑表达,以促进相关工作的进展。视频内部存在没有效力的视频帧或者片段,而传统方法对视频进行全局描述并未考虑到这种差异。视频紧凑表达的目标
视觉目标追踪是计算机视觉领域的一项基础性研究,其应用场景包括自动驾驶、人机交互、智能视频处理等。尽管对于视觉目标追踪的研究已经取得了很大的进展,但它仍是一个颇具挑战性的问题。其挑战性在于如何依据目标的一个初始状态,来估计后续视频帧中会发生各种变化的目标的状态。本文结合追踪任务的特性,按照先在线信息挖掘和应用后离线先验信息应用的研究路线,从追踪框架的表观模型和决策模型着手,对以下四个问题进行了研究。
学位
自然语言处理是人工智能的重要子学科。作为自动处理文本的第一步,将词转换为数值化表示很大程度地影响了自然语言处理的性能。词向量为自然语言的最小语义单元—词提供了包含句法语义信息的稠密向量表示。作为基于神经网络的自然语言处理的基础,依据词义分布假设构造的词向量给诸多自然语言处理模型带来了性能的提升。为了提高词向量的学习效率,前人工作进一步对词向量进行静态假设,即一个词有唯一的向量表示。这一假设使得在大
随着信息技术的飞速发展,各行各业都迎来了大数据时代。面对如此庞大的数据量,数据管理系统显得尤其重要。数据查询处理技术作为数据管理系统中最重要的组成部分之一,可以快速地、直观地反映数据的各种特性,为用户的决策提供参考和帮助。目前为止,数据管理系统中最常见的查询有Skyline查询、最近邻查询、Top-k查询、聚集查询、Join查询、相似性查询等。其中,Skyline查询是一种重要的多维度偏好查询,在
学位
近年来,随着数据规模快速增长,数据质量问题日益凸显,已经成为数据库领域的重要研究方向。不一致性是数据质量问题中的一个重要方面,数据质量规则是处理数据不一致性的重要工具。为检测和修复不一致数据,各种约束规则被提出来,包括函数依赖、条件函数依赖、编辑规则以及修复规则等,这些数据质量规则大多规定元组在某些属性上的值能在一定程度上提供该元组在其他属性上值的信息。现有规则都描述宏观不一致性,也就是将每个属性
学位
随着电子信息产业和移动互联网的快速发展,环境辅助生活系统开始进入实际应用,它涉及到传感器、物联网、嵌入式系统、边缘计算、线下的医疗与看护服务等多个环节,其中基于传感器数据的人类行为识别、建模与异常检测,是该系统实现各种应用的基础。基于密集传感方案,对居家行为展开研究分析,包括数据源的融合、数据特征提取、建模判别以及处理方式等,实现了三个时间粒度层级的人类居家行为的发现、识别、分析和异常检测。  针