面向多复杂场景的音视频多模态身份验证研究

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:xtchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的蓬勃发展,生物特征识别技术如面部、虹膜、指纹和语音等在我们日常生活中也得到了广泛的应用。其中特别是人脸识别技术和说话人识别技术,它们有着高用户接受度且取样成本较低的优势,在各个移动设备上的使用也变得很常见。但是在实际应用中,视听识别很容易受到现实世界里各种复杂场景的影响,如综艺、采访、唱歌、电影和电视剧等。它们包括有说话人识别中的多人混合说话、远近场导致的声音不清晰和环境噪声等问题,人脸识别中的多人脸、侧脸或遮挡以及环境光线等问题。现在的研究有一种有效的方法可以解决这些问题,即结合和利用两种模态的信息进行互补,融合多模态信息进行身份验证任务。基于以上情况,本文从自然真实场景出发,结合说话人识别和人脸识别技术来进行音视频多模态的身份验证研究。本文的主要研究内容和创新工作如下:(1)数据集建设。目前还没有具有多个复杂场景的音视频多模态识别数据集,无法探知在真实场景下的识别性能。本文提供了一个在线的数据采集平台,构建了一个用于多模态生物特征识别的视听数据集,包括250个目标人来自11种不同场景的3485个视频,这11种场景中包含有多个复杂场景,这些视频被切分为316832个完全平行的音频/视频片段。该数据集能对多模态生物特征识别任务提供比较高的研究价值。(2)说话人验证和人脸验证任务研究。基于已有的MOBIO、MSU-AVIS、Ave Robot、Vox Celeb1和本文建设的CN-Celeb3数据集,结合当前性能先进的说话人识别和人脸识别模型,进行单一模态下的说话人验证和人脸验证任务,两个任务使用的验证对是完全平行的。说话人验证任务使用的基线模型是ECAPATDNN,而人脸验证任务中人脸检测使用的模型是Retina Face,人脸识别使用的模型是Arc Face。实验结果表明,在场景单一的数据集如MOBIO和Vox Celeb1中,等错误率(EER)都极低,均低于2.5%。MSU-AVIS数据集的视频模态信息损失较音频模态更为严重,Ave Robot数据集的音视频模态信息损失都很严重。而拥有多复杂场景的CN-Celeb3数据集在说话人识别和人脸识别任务上的结果EER分别为19.72%和15.43%,这说明该数据集相关模态信息保留较为完善,具有很高的研究价值。(3)音视频多模态身份验证任务研究。基于两种单一模态下各个数据集的验证打分,采用三种不同的权重选取方式从分数域上对两个模态进行融合。实验结果表明,在本研究使用的所有数据集中,分数融合都能使结果有一定的提升,这说明多模态分数融合工作在身份验证研究中确实能取得有效的性能提升。而在CN-Celeb3数据集中的EER结果,在使用最大值融合方法之后,能够提升到8.96%,证实了模态融合可以有效的进行信息互补。
其他文献
近年来,环境问题日益严重,事故灾难给全世界人民带来了巨大的生命和财产的威胁。我们需要在事故灾难发生的第一时间及时获取第一手的事故灾难信息,作出相应的应对策略,减少损失。事件抽取是信息抽取的一种,对于事件信息的挖掘与抽取具有极为重要的意义。在进行事件抽取任务中,中文的短文本信息在各个词语之间没有自然的停顿,并且中文词语还存在一词多义的现象,因此在抽取的过程中存在触发词与事件类型不匹配和一个触发词对应
学位
随着互联网的不断发展,社交网络已变成网民分享信息、共享知识的首要渠道。社交网络中的信息传播,极大的方便了新技术与新思想的推广。在交互过程中,一个人可以同时隶属于多个群体,这个人作为社区间的枢纽节点,会对信息的传播起到十分关键的作用,进而使网络拓扑结构发生改变。因此,基于社区结构的影响力分析在理解节点的行为特征、揭示网络传播动态以及分析网络拓扑结构具有至关重要的作用。下面为本文主要贡献:(1)在社交
学位
新型冠状病毒肺炎(COVID-19)的快速蔓延导致全球健康危机,给医疗卫生、经济、安全等各方面都带来了巨大的危害。新型冠状病毒的高度传染性、变异性和隐蔽性大大增加了疫情预防和控制的难度。快速检测并且对可能感染的患者进行隔离治疗是抑制COVID-19传播的有效途径。深度学习和医学成像的最新进展表明,计算机从医学图像中提取数据的信息能力取得了进步,进而通过构建计算机辅助诊断系统可以在对抗疾病的检测工作
学位
各大新闻网站、社交平台的文本信息数量与日俱增,自动文本摘要技术可以解决人们面临的信息冗余与快速阅读之间的矛盾,节省时间,提高效率。目前自动文本摘要技术主要分为抽取式和生成式,抽取式自动文本摘要对长文本比较友好,但缺少语义信息,生成式自动文本摘要可以生成新的句子,比抽取式摘要更灵活,但对于较长的文本,可能会因为截断而导致信息损失。本文针对以上问题,分别对抽取式和生成式自动文本摘要进行了研究,同时设计
学位
文本复述任务使用基于深度学习的自然语言处理技术,可以为生成出来的文本赋予多样性和创造性。其任务目标是让机器使用不同的措辞、表达,将原先的文本复述出来,该过程需要最大程度地保留原文本中的核心语义,并且保证生成的语句通顺。本文提出结合同义词词林和依存句法的词语复述生成以及基于命名实体识别和Laser Tagger的短句复述生成方法,通过学习数据样本之间的多样性及语句流畅度,在最大限度保留原句语义的情况
学位
随着语音识别技术的快速发展,端到端语音识别框架已经成为主流。但是,这种框架需要大量的标记数据进行训练,这对于低资源语言情况下是非常困难的。为了解决低资源语言训练不足导致模型性能下降的问题,本文基于半监督语音识别方法在藏语数据上开展了研究。主要的工作如下:(1)基于半监督学习方法的藏语语音识别研究。本文首先使用藏语数据训练基线模型,以确保半监督模型的可靠性。然后,利用半监督学习方法,充分利用无标签数
学位
随着互联网的普及,在网上欣赏和学习舞蹈成为一个必不可少的途径。然而,由于舞蹈视频网站的快速发展,信息过载的问题也日益突出。因此,在这种情况下,使用推荐系统来进行舞蹈推荐是一个有效的解决方案。深度学习技术作为一种有效的工具,可以解决传统推荐模型中的复杂特征提取和特征交叉问题。越来越多的研究开始重视召回阶段的重要作用,从而提升推荐系统的效率。因此,把推荐系统划分为召回和排序两个阶段,以期望在短时间内,
学位
肺栓塞是由各种栓子堵塞肺动脉而引发的肺部呼吸类疾病,由于其临床表现不明显,致使患者漏诊、误诊率较高。肺栓塞疾病具有较高的致死率,严重危害人们的身体健康,因此,对该疾病的早期诊断具有重要意义。SPECT肺灌注图像是目前诊断肺栓塞等肺部疾病常用的无创性检查手段,然而由于肺灌注图像存在空间分辨率低、个体差异大、显像区域边界模糊等问题,给肺栓塞疾病的诊断及定量分析带来了挑战。对于上述问题,面向SPECT肺
学位
大数据时代,短视频平台在社会生活中的占比越来越大,其内容涉及到社会新闻、文化娱乐以及电商营销等多个方面,短视频用户数量呈指数级增长。基于短视频平台,大量用户对各种各样的短视频自由发表自己的意见与看法,产生了海量的文本评论数据。对短视频文本评论数据进行话题检测和情感分析研究,可以在一定程度上正确引导社会舆论,了解民生民意,为商业营销计划和政府相关管控措施的制定提供一定的参考价值。本文主要工作分为以下
学位
近年来,随着深度学习技术的不断进步,语音识别技术也在快速发展。目前,语音识别声学建模有两种框架:混合架构和端到端架构。端到端架构通过单一网络对目标函数进行训练和优化,避免了混合架构的模块化设计和独立性假设,具有联合优化和易于部署等特点。但端到端架构也存在两个问题:一是需要大量标注数据,二是噪声和方言问题。这两个问题会极大限制缺乏语音标注数据的低资源语种语音识别发展。本文针对端到端架构的这两个关键问
学位