基于三维唇部动作的说话人识别技术研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:mile999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的进步与人们安全意识的提高,身份识别技术得到了人们的广泛关注。据统计报道,有近一半的用户曾因丢失移动设备导致敏感信息泄露。因此,如何保证个人信息安全成为一个需要迫切解决的问题。最初的用户身份识别技术采用密码口令的验证方式。由于密码存在易被窃取的不足,基于生物特征的身份识别技术被提出。唇部动作作为一种生物行为特征,包含的个人特征能被用于说话人识别系统。当前基于唇部运动的说话人识别技术都是基于图像的,但图像会受到光照与说话人头部姿态的影响,造成识别结果的降低。为了解决上述问题,我们在本文中利用不受光照和头部姿态影响的三维数据,完成基于唇部动作的说话人身份识别任务。本文提出用于说话人识别任务的句子级三维唇部动作序列,并在常见基准网络中证明唇部动作在说话人识别任务中的普适性。该类型数据可以利用空间坐标变换和头部姿态校正的数据预处理操作应对说话人位置和头部姿态的变化,而且该数据不受光照的影响,更具鲁棒性。本文还提出一种端到端的基于三维唇部动作的说话人识别网络,该网络能够提取丰富的识别特征。本工作认为,唇部各点在说话人识别过程中的重要性是不同的。因此,在该网络中提出了唇部区域反馈模块,该模块可以探索不同唇部区域对识别结果的贡献。此外,统计唇部运动作为先验知识引入区域反馈模块,有助于区域反馈模块更好的分析嘴唇运动信息。本工作可用于文本无关和文本相关的说话人识别场景。与先前的工作相比,本工作通过动态的识别数据提高用户识别安全,也在一定程度上避免识别场景对识别结果的影响,取得了不错的识别结果。
其他文献
数据需求的快速增长、物联网设备的海量接入以及新应用场景的不断涌现,对移动通信网络提出了更高的要求。作为新一代移动通信网络,5G提出并应用了许多前沿理论和技术。其中,设备到设备(D2D)通信技术可以有效缓解通信系统核心网的数据压力并且优化用户服务感知。但是,由于无线信道的开放性,D2D通信存在着隐私泄露、数据篡改等多种安全问题。特别是在身份认证方面,传统的解决方案可能会带来严峻的安全挑战。因此,本论
学位
模式识别是人脑强大认知能力的体现之一。尽管有各种各样的模式识别技术被提出来模拟生物体杰出的认知能力,然而与生物体高效的运作方式相比,这些方法无论是在生物可信度还是识别准确率方面都还有很大的差距。研究表明,生物体使用二值形式的离散脉冲来进行信息传递和处理。受此启发,脉冲神经网络被提出来,用以研究基于脉冲的认知机理及计算特性。然而,设计一个基于脉冲神经网络的高效且生物置信度高的图像识别框架仍存在较大挑
学位
在计算机图形学领域中,流体模拟一直是热门的研究方向之一。传统的流体模拟通过求解物理方程实现,这类方法能够得到非常真实的效果,但是往往会受到计算资源的限制。随着深度学习技术的不断发展,将流体模拟与基于数据驱动的方法相结合成为了一种新的研究趋势。本文在深度学习算法的基础上,针对超分辨率流体中存在的问题进行了研究。本文基于生成对抗网络(GAN)提出了帧间插值的算法,来增强超分辨率流体的时序一致性。使用G
学位
近年来,移动网络流量的激增给移动网络运营商带来极大的挑战,也导致用户体验降低。D2D(Device-to-Device)技术是一种基于设备直连的面对面内容传输技术,可以缓解流量激增问题。我们可以在D2D社区中选择有影响力的种子用户,促进线下内容的传播,卸载网络流量,提高D2D软件的活跃度。然而,目前的一些种子用户选择算法产生影响力重叠的问题。种子用户选择是一个持续的过程,在传统的集中式云计算模式下
学位
深度学习在许多领域都取得了经验性的成功,但是它们仍然缺乏理论上的理解。核框架的优雅性确保了可以使用各种数学分析技术解析地研究深度学习,核方法对于深度学习泛化理论的研究存在着很大的发展空间。本文主要使用核方法从深度核学习的泛化性分析以及优化算法的隐式正则化角度来研究深度学习的泛化理论。主要内容如下:1.提出了基于Rademacher复杂度和Rademacher chaos复杂度的深度核学习泛化误差界
学位
图卷积神经网络(Graph Convolutional Networks,GCN)是一种新兴的高效且有效的网络表征学习技术,目前正在被研究者们所广泛的研究着。然而已有GCN方法往往受限于网络拓扑的同质性假设,即邻居结点的特征被期望更加相似。但如果网络拓扑不符合该假设,则节点将会聚合过多噪音特征,导致节点表征无效。最近也有一些研究者来尝试解决上述GCN的拓扑限制,然而这些方法主要是通过如何修正或更好
学位
在近些年,作为人机交互的一种重要方式,人们更加广泛地关注语音产品。语音产品的广泛应用,极大的解放了人们的双手,从而使日常生活变得更为方便。在较为干净的情况下,排除说话人自身的因素,语音应用已经能够取得很好的性能。例如,语音识别能够在干净的环境下,获得超过95%的准确率。但是,大量的噪声往往会在现实环境下存在,语音应用的性能也因此会受到极大的影响。从带噪语音信号中提取干净的语音信号的一种常用技术,被
学位
淀粉是人类饮食中维持正常身体能量代谢的最重要的碳水化合物之一。抗性淀粉(RS)是淀粉的一部分,这种淀粉在体内消化速度十分缓慢,意味着进入血液速度也会减慢,其性质类似溶解性纤维。抗性淀粉可通过多种不同的制备工艺,来提高抗性淀粉的含量,保持抗性淀粉的性能。RS因其独特的功能特性和健康益处而发挥了非常重要的作用。RS的有益作用包括控制血糖、控制空腹血浆甘油三酯和胆固醇水平以及吸收矿物质。此外,了解RS与
期刊
炮位侦察校射雷达弹道外推算法受多种因素影响。为满足弹道外推分析、进一步提高外推精度的需求,详细建模分析地球曲率、时间不同步、弹道模型误差、信噪比变化等影响炮位侦校雷达定位精度的因素。结合精密雷达测量数据和无迹卡尔曼滤波外推算法进行仿真,量化评价各因素对外推精度的影响。通过理论建模与仿真实验,将考虑各种影响因素与否的情况详细分析对比,得到各因素对定位精度影响程度从大到小依次为:地球曲率、时间不同步、
期刊
随着移动社交网络(Mobile Social Networks,MSNs)中文件重复传输频次逐渐增大,流量爆炸问题日趋严重。作为支持5G本地服务需求之一的“设备-设备”(Device-to-Device,D2D)技术,可不经过基础设施进行短距离通信,有效实现主干网流量迁移,提升用户体验。如何充分利用网络结构、链接关系等多维度的用户交互属性,是构建有效的D2D线下社交网络关系链接预测模型的关键问题。
学位