论文部分内容阅读
摘 要: 人脸识别由于采集便利、设备成本低廉以及准确率高等优点,在各行各业得到了越来越广泛的应用。在人脸数据大量累积的基础上,提出进一步对数据应用挖掘的需求。文章提出一种时效相关的在线人脸聚类方法,通过对后台大量人脸数据进行聚类,并根据时效相关的原则对人脸数据进行筛选,实现对可疑人员人脸数据挖掘。
关键词: 人脸识别; 深度卷积网络; 人脸聚类; 应用挖掘
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2018)11-76-02
Abstract: Face recognition is widely used in all fields in our life due to its convenient acquisition, low cost and high accuracy. On the basis of accumulating a large number of face data, the needs for further data application mining are proposed. In this paper, an online face clustering method is proposed, which realizes the face data mining of suspicious people by clustering a large number of background face data and screening the face data according to the temporal principle.
Key words: face recognition; deep convolution network; face clustering; application mining
0 引言
随着人脸识别技术的不断进步,人脸识别在各个行业的应用也越来越广泛,同时人脸识别的相关技术也通过不断与行业具体业务进行紧密的结合,并产生了新的应用方式。在许多行业应用中,需要对一些异常的行为或者事件进行进一步的分析,比如对银行ATM机前未成功取款的人脸进行分析;比如对医院、诊所或药店中非本人刷卡的人脸进行分析等。通过对特定业务场景中出现的人脸进行聚类分析,挖掘出多次出现且具有共性的人脸,可以检测是否需要重点关注的可疑人员,以便采取进一步措施。同时,上述可疑人员检测应用与时效性非常相关,在具体的某一时间段的检测结果才有实际意义。
自2012年深度卷积网络在ImageNet竞赛中取得巨大成功之后[1],深度学习技术受到了广泛的关注。Facebook的科学家[2]首次把深度学习技术引入到人脸识别领域,随后香港中文大学提出了DeepID等系列[3]基于深度卷积网络的人脸识别论文。Google科学家提出了一种简单有效的基于深度卷积网络的人脸识别训练方法[4],这是一种高效的纯粹的深度卷积网络的人脸识别方法,从此深度学习成为人脸识别领域的主流技术。最近人脸聚类[5-7]成为研究的热点问题。
本文根据可疑人员的出现具有时序性的特点,提出一种在线人脸聚类的方法实现快速挖掘多次出现在某个特定业务场景中并且具有共性的人脸。通过深度卷积网络提取人脸特征值,把深度特征值之间的人脸相似度作为人脸聚类的度量,利用时效性相关的在线人脸聚类,对新增人脸和过期人脸的快速增加和删除,当相似人脸数目达到一定的阈值時,就认为是可疑人员,给应用系统报警。
1 基于深度卷积网络的人脸特征提取
基于深度学习技术的人脸识别是目前人脸识别主流方法,而人脸特征值的提取是整个人脸识别相关应用的关键部分。在以深度学习技术为基础的人脸识别相关应用中,不管是1:1的人脸证还是1:N的人脸搜索采用的基本方式是提取人脸特征和进行人脸相似度度量。在目前主流的方式中,一般提取人脸特征的深度卷积网络结构很深,所以有一定的计算量;而人脸相似度度量一般采用对两个人脸特征向量进行计算欧氏距离或者COS距离,计算量非常小,并且针对大规模的人脸识别应用还可以并行计算,所以速度非常快。正是由于当前基于深度卷积网络技术的人脸特征向量计算完成之后,计算人脸相似非常快的特点,才使得在线人脸聚类方法可以真正落地应用。
人脸特征提取网络由两部分组成,如图1中虚线框所示,第一部分是一个STN网络,它根据人脸检测器所得到的人脸位置,根据训练所得的参数把人脸归一化成128×128的矩阵。第二部分是一个深度卷积网络,这里采用64层的RESNET网络结构,其中最后一层为全连接层,输出512维的人脸特征向量。
为了保证相同人的人脸特征向量欧氏距离小,而不同人之间的特征向量欧氏距离大,我们这里引入三元组损失函数作为度量学习的约束条件:
其中表示向量的模运算符,分别表示当前人脸特征向量,与当前人脸相同的人脸特征向量,与当前人脸不同的人脸特征向量。
假定两张人脸的通过上述人脸特征值提取网络提取的特征向量分别为和,那么评价两张人脸的相似度可以用COS距离表示:
2 时效相关的人脸聚类
由于人脸特征向量可以使用COS距离来表示两个人脸之间的相似度,而且COS距离计算对于现在的主流计算机来说计算量不大,可以非常快速地完成计算。在人脸聚类过程中,为每一个类维护一个聚类中心点,即:
判断一个新的人脸特征向量f(xk)是否属于该类别时,可以使用式⑵计算下式是否成立,如果成立则说明该人脸属于该类别;否则不属于该类别
其中T表示两个人脸的相似度阈值,此处取0.8,表示两个人脸的相似度为80%及以上为同一人。当式⑷成立时,该人脸特征向量属于该类别,那么需要对该类别的聚类中心点进行更新。为了使得人脸聚类具有时效相关性,在更新过程中加入遗忘系数,从而使新的中心点以一定的速率遗忘旧类别数据的影响,增加新加入数据的影响力 其中ρ為遗忘系数,此处为0.9。
对于每个人脸类别中,还引入了一个活跃系数,用于记录每一个类别的活动生命周期。每当一天的新数据需要在线聚类时,所有类别的活跃系数都会作减1操作。当该某个类别有数据更新时,它的活跃系数就会作增1操作。当时,则删除该类别;当时,则向系统提醒该类别。
3 医保监管药贩子人脸挖掘系统
目前各地药店医保卡违规购药以及民营医院诊所冒名就诊发生的情况比较多,时常有媒体时行报道。人脸识别技术引入到购药和就诊环节可以比较好的解决上述问题,同时在已有的人脸识别系统上引入药贩子人脸挖掘技术可以进一步加强监管力度。在药店购药或者民营医院诊所就医过程中,人脸识别医保监控会对所有病人进行抓拍,并与后台的人脸库进行比对,识别是否为本人或者授权家属购药或者就诊。
对于有些交易是非本人刷卡买药的情况,通过对非本人刷卡的人脸照片进行在线人脸聚类,再对一段时间内同一类照片出现的次数进行检测,就可以判断出某些人是否在非本人刷卡的交易中经常出现,从而锁定为药贩子嫌疑人,在后台系统中对这些结果进行展示,提醒监管部门进一步处理。
4 结论
基于深度卷积网络提取人脸特征值作为人脸相似度在线人脸聚类方法,采用链队列方式实现一定有效期内的人脸快速增加和删除的在线人脸聚类方式,通过统计链表队列节点数目实现可疑人员检测,并应用于医保卡实名购药系统中,取得了比较好的效果。
对于大规模医保卡实名监管系统来说,每一个月累积的人脸数目可达千万级别的量级,如何采用并行化的方法对人脸进行时效相关的聚类是值得进一步研究的问题。
参考文献(References):
[1] Krizhevsky A, Sutskever I, Hinton G.E., ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems 25 NIPS,2012.
[2] Yaniv T, Ming Y, Marc A.R, Lior W.,DeepFace: Closing the Gap to Human-Level Performance in Face Verification. 2014 IEEE Conference on Computer Vision and Pattern Recognition,2014.
[3] Sun Y, Wang X, Tang X. Deep Learning Face Representa-tion by Joint Identification-Verification. IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2015.
[4] Florian S, Dmitry K, James P.,FaceNet: A Unified Embedding for Face Recognition and Clustering.n Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition 2015.
[5] Shi Y, Otto C, Jain A K. Face Clustering: Representation and Pairwise Constraints. IEEE Transactions on Information Forensics and Security,2018.13(7):68-74
[6] Shi X, Guo Z, Xing F, Cai J, Yang L. Self-learning for face clustering. Pattern Recognition,2018.79:279-289
[7] Otto C, Wang D, Jain A K.Clustering Millions of Faces by Identity. IEEE Transactions on Pattern Analysis and Machine Intelligence,2018.40(2):289-303
关键词: 人脸识别; 深度卷积网络; 人脸聚类; 应用挖掘
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2018)11-76-02
Abstract: Face recognition is widely used in all fields in our life due to its convenient acquisition, low cost and high accuracy. On the basis of accumulating a large number of face data, the needs for further data application mining are proposed. In this paper, an online face clustering method is proposed, which realizes the face data mining of suspicious people by clustering a large number of background face data and screening the face data according to the temporal principle.
Key words: face recognition; deep convolution network; face clustering; application mining
0 引言
随着人脸识别技术的不断进步,人脸识别在各个行业的应用也越来越广泛,同时人脸识别的相关技术也通过不断与行业具体业务进行紧密的结合,并产生了新的应用方式。在许多行业应用中,需要对一些异常的行为或者事件进行进一步的分析,比如对银行ATM机前未成功取款的人脸进行分析;比如对医院、诊所或药店中非本人刷卡的人脸进行分析等。通过对特定业务场景中出现的人脸进行聚类分析,挖掘出多次出现且具有共性的人脸,可以检测是否需要重点关注的可疑人员,以便采取进一步措施。同时,上述可疑人员检测应用与时效性非常相关,在具体的某一时间段的检测结果才有实际意义。
自2012年深度卷积网络在ImageNet竞赛中取得巨大成功之后[1],深度学习技术受到了广泛的关注。Facebook的科学家[2]首次把深度学习技术引入到人脸识别领域,随后香港中文大学提出了DeepID等系列[3]基于深度卷积网络的人脸识别论文。Google科学家提出了一种简单有效的基于深度卷积网络的人脸识别训练方法[4],这是一种高效的纯粹的深度卷积网络的人脸识别方法,从此深度学习成为人脸识别领域的主流技术。最近人脸聚类[5-7]成为研究的热点问题。
本文根据可疑人员的出现具有时序性的特点,提出一种在线人脸聚类的方法实现快速挖掘多次出现在某个特定业务场景中并且具有共性的人脸。通过深度卷积网络提取人脸特征值,把深度特征值之间的人脸相似度作为人脸聚类的度量,利用时效性相关的在线人脸聚类,对新增人脸和过期人脸的快速增加和删除,当相似人脸数目达到一定的阈值時,就认为是可疑人员,给应用系统报警。
1 基于深度卷积网络的人脸特征提取
基于深度学习技术的人脸识别是目前人脸识别主流方法,而人脸特征值的提取是整个人脸识别相关应用的关键部分。在以深度学习技术为基础的人脸识别相关应用中,不管是1:1的人脸证还是1:N的人脸搜索采用的基本方式是提取人脸特征和进行人脸相似度度量。在目前主流的方式中,一般提取人脸特征的深度卷积网络结构很深,所以有一定的计算量;而人脸相似度度量一般采用对两个人脸特征向量进行计算欧氏距离或者COS距离,计算量非常小,并且针对大规模的人脸识别应用还可以并行计算,所以速度非常快。正是由于当前基于深度卷积网络技术的人脸特征向量计算完成之后,计算人脸相似非常快的特点,才使得在线人脸聚类方法可以真正落地应用。
人脸特征提取网络由两部分组成,如图1中虚线框所示,第一部分是一个STN网络,它根据人脸检测器所得到的人脸位置,根据训练所得的参数把人脸归一化成128×128的矩阵。第二部分是一个深度卷积网络,这里采用64层的RESNET网络结构,其中最后一层为全连接层,输出512维的人脸特征向量。
为了保证相同人的人脸特征向量欧氏距离小,而不同人之间的特征向量欧氏距离大,我们这里引入三元组损失函数作为度量学习的约束条件:
其中表示向量的模运算符,分别表示当前人脸特征向量,与当前人脸相同的人脸特征向量,与当前人脸不同的人脸特征向量。
假定两张人脸的通过上述人脸特征值提取网络提取的特征向量分别为和,那么评价两张人脸的相似度可以用COS距离表示:
2 时效相关的人脸聚类
由于人脸特征向量可以使用COS距离来表示两个人脸之间的相似度,而且COS距离计算对于现在的主流计算机来说计算量不大,可以非常快速地完成计算。在人脸聚类过程中,为每一个类维护一个聚类中心点,即:
判断一个新的人脸特征向量f(xk)是否属于该类别时,可以使用式⑵计算下式是否成立,如果成立则说明该人脸属于该类别;否则不属于该类别
其中T表示两个人脸的相似度阈值,此处取0.8,表示两个人脸的相似度为80%及以上为同一人。当式⑷成立时,该人脸特征向量属于该类别,那么需要对该类别的聚类中心点进行更新。为了使得人脸聚类具有时效相关性,在更新过程中加入遗忘系数,从而使新的中心点以一定的速率遗忘旧类别数据的影响,增加新加入数据的影响力 其中ρ為遗忘系数,此处为0.9。
对于每个人脸类别中,还引入了一个活跃系数,用于记录每一个类别的活动生命周期。每当一天的新数据需要在线聚类时,所有类别的活跃系数都会作减1操作。当该某个类别有数据更新时,它的活跃系数就会作增1操作。当时,则删除该类别;当时,则向系统提醒该类别。
3 医保监管药贩子人脸挖掘系统
目前各地药店医保卡违规购药以及民营医院诊所冒名就诊发生的情况比较多,时常有媒体时行报道。人脸识别技术引入到购药和就诊环节可以比较好的解决上述问题,同时在已有的人脸识别系统上引入药贩子人脸挖掘技术可以进一步加强监管力度。在药店购药或者民营医院诊所就医过程中,人脸识别医保监控会对所有病人进行抓拍,并与后台的人脸库进行比对,识别是否为本人或者授权家属购药或者就诊。
对于有些交易是非本人刷卡买药的情况,通过对非本人刷卡的人脸照片进行在线人脸聚类,再对一段时间内同一类照片出现的次数进行检测,就可以判断出某些人是否在非本人刷卡的交易中经常出现,从而锁定为药贩子嫌疑人,在后台系统中对这些结果进行展示,提醒监管部门进一步处理。
4 结论
基于深度卷积网络提取人脸特征值作为人脸相似度在线人脸聚类方法,采用链队列方式实现一定有效期内的人脸快速增加和删除的在线人脸聚类方式,通过统计链表队列节点数目实现可疑人员检测,并应用于医保卡实名购药系统中,取得了比较好的效果。
对于大规模医保卡实名监管系统来说,每一个月累积的人脸数目可达千万级别的量级,如何采用并行化的方法对人脸进行时效相关的聚类是值得进一步研究的问题。
参考文献(References):
[1] Krizhevsky A, Sutskever I, Hinton G.E., ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems 25 NIPS,2012.
[2] Yaniv T, Ming Y, Marc A.R, Lior W.,DeepFace: Closing the Gap to Human-Level Performance in Face Verification. 2014 IEEE Conference on Computer Vision and Pattern Recognition,2014.
[3] Sun Y, Wang X, Tang X. Deep Learning Face Representa-tion by Joint Identification-Verification. IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2015.
[4] Florian S, Dmitry K, James P.,FaceNet: A Unified Embedding for Face Recognition and Clustering.n Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition 2015.
[5] Shi Y, Otto C, Jain A K. Face Clustering: Representation and Pairwise Constraints. IEEE Transactions on Information Forensics and Security,2018.13(7):68-74
[6] Shi X, Guo Z, Xing F, Cai J, Yang L. Self-learning for face clustering. Pattern Recognition,2018.79:279-289
[7] Otto C, Wang D, Jain A K.Clustering Millions of Faces by Identity. IEEE Transactions on Pattern Analysis and Machine Intelligence,2018.40(2):289-303