声纹和红外人脸识别的多模态融合研究

来源 :西北民族大学 | 被引量 : 0次 | 上传用户：gzlwh

【摘要】

：

【作者】

：

治天锴

【机构】

：

西北民族大学

【出处】

：

西北民族大学

【发表日期】

：

2022年01期

【关键词】

：

声纹识别红外人脸识别多模态融合 DNF模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当前,声纹识别、虹膜识别、人脸识别等生物认证技术取得了长足的发展,并已得到广泛应用,但是这些生物认证技术仍存在安全性低、系统鲁棒性不够等问题。为了解决这些问题,实现信息安全性和认证准确性等目标,我们可以采用多模态身份认证方式。目前,基于可见光人脸和语音的多模态身份认证技术备受关注,该认证方式明显地提升了识别准确率。但是,可见光的人脸的数据隐私性比较敏感,一旦泄露,可能造成非常严重的后果。为此,本文从多模态的思路出发,提出声纹和红外人脸的多模态身份认证方式。和其他的多模态系统相比,声纹和红外人脸的多模态融合,具有弱隐私、高安全、高精度的特点,是目前一种较为理想的方式。本文的主要工作如下:（1）参与首个语音、红外视频、可见光视频多模态数据集THS2021的建设工作。本人在数据集建设中,负责了数据集的清洗与整理工作。该数据集由清华大学语音和语言技术中心录制,该数据集说话人数目为245人,每人录制200句,包含中文、数字、英语字母三类语音,同时录制说话人的可见光视频和红外视频。（2）研究THS2021数据集上声纹识别和人脸识别的性能。声纹识别基线系统使用Vox Celeb2的开发集数据训练模型,所用的网络框架是Res Net34,THS2021的语音数据在该模型上测试的EER为8.61%。人脸识别基线系统使用VGGface2数据预训练好的Inception-Res Net-v1模型,该模型在THS2021的可见光人脸图片上测试的EER为4.80%,红外人脸图片上测试的EER为16.75%。（3）研究声纹和红外人脸的多模态身份认证。采用特征级的融合,将声纹特征和人脸特征进行拼接。在整个THS2021数据集上,当每人注册的人脸图像为1张和语音为1条时,声纹与红外人脸的多模态融合身份认证EER为7.91%,声纹识别的EER为8.61%,红外人脸识别的EER为14.75%,声纹与可见光人脸的多模态融合EER为2.29%,声纹和红外人脸识别的多模态融合性能优于单一模态性能,但弱于声纹和红外人脸识别的多模态融合身份认证性能。在THS2021测试集上,当每人注册的人脸图像和语音数目大于等于2时,红外人脸特征在经过DNF模型后,红外人脸与声纹多模态融合性能优于可见光人脸和声纹的多模态融合,关于红外人脸识别的性能提升,有待于进一步的研究。

其他文献

《川剧经典折子戏》的语言特色研究

学位

我国医疗废物管理法律制度探析

学位

法治中国背景下藏族习惯法文化研究 ——以夏河县阿木去乎镇为例

学位

他雇卡车司机劳动过程中的行动策略研究

学位

面向协作知识建构的角色设计与应用研究

学位

出海自媒体对海外受众中华文化认同的影响研究 ——基于YouTube中“李子柒”的网民评论内容分析