基于多信息融合的说话人识别

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:jingfei1415
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别,又称声纹识别,是根据说话人的声音对说话人进行自动区分,从而实现说话人身份辨别或者确认的生物特征识别技术。其本质上是根据说话人的特征向量进行类别判定的过程,因此本文以提取出更加全面的表征说话人信息的特征向量为目标,最终实现说话人识别系统性能的提高。主要从以下各个方面进行研究以及系统的实现:1、构建了三种传统的说话人识别系统。根据输入特征和建模形式的差异,说话人识别系统可分成不同类型。一是基于全局差异空间建模的说话人识别,即利用大规模数据训练出包含说话人共性特征的通用背景模型,并以其帧后验概率为基础计算子空间数据的各阶统计量以及进行全局差异空间矩阵的训练(简记为TVM-I-Vector);二是基于DNN统计量提取的说话人识别,即利用DNN代替上述中的UBM产生帧级别的后验概率(简记为NN-I-Vector);最后是基于深度瓶颈特征(DBF)的说话人识别,即利用DBF代替MFCC作为系统的输入特征(简记为DBF-I-Vector)。由于在I-Vector建模的过程中并没有具体区分说话人信息和信道信息,因此为了降低信道对说话人识别系统识别性能的影响,在本文设计的说话人识别系统的后端采用LDA或者PLDA等信道补偿技术进行信道补偿以及说话人的区分性训练。2、构建了基于特征融合的说话人识别系统。在说话人识别中输入特征可分为深层特征(如:DBF),和浅层特征(如:MFCC、PLP等)。浅层特征是一种低层声学特征,大都基于短时语音的谱信息,但难以表征语音段的高层信息;基于深度神经网络的说话人识别充分考虑了发音内容对语音信号的影响并添加了具有区分性的信息,提取的是一种深层的特征,但是并没有涉及物理层的最直观的声学特征。考虑到深、浅层特征各自存在的优势和不足,本文采用特征融合的方式实现特征之间的优势互补,利用融合后的特征进行模型的训练以提高说话人识别系统的性能。3、构建了基于模型融合的说话人识别系统。不同类别的说话人识别系统(比如:TVM-I-Vector、NN-I-Vector、DBF-I-Vector等)在性能上有一定的差异,但是也有各自的优势。而这些差异最终表现为提取的特征向量I-Vector的差异,将不同类型的说话人识别系统提取得到的I-Vector进行融合,可以充分综合不同系统的优势。因此,本文根据上述设想进行建模,以提升系统的识别效果。4、构建了端到端的说话人识别系统。在说话人识别领域中,端到端的思想是利用神经网络提取出说话人的说话人表征向量代替经典说话人识别系统中的I-Vector。其具体设计是以基本声学特征作为神经网络的输入,在池化层或标准化层提取出固定长度的能够表征说话人信息的特征向量,即speaker embedding,在系统后端则是利用余弦距离基于PLDA信道补偿技术进行打分。本文正是在此思想的指导下进行系统的设计和优化,以简化训练复杂度并添加具有区分性的信息,从而提升系统的识别效果。
其他文献
目的研究剖宫产术后再次妊娠阴道分娩的相关影响因素。方法选取2012年4月至2016年5月该院收治的经剖宫产术后再次妊娠行阴道分娩的孕妇146例,均无阴道分娩相关禁忌证。对146
指导学生阅读古诗词和浅显文言文,重点在于考察学生记诵积累的过程,在有意识地积累、感悟和运用中,提高自己的欣赏品味和审美情趣。如何让学生记诵、积累、品味这些宝贵的优秀文
目的探讨个性化医嘱措施对固定矫治的青少年患者Ⅱ类牵引配合度影响的研究,为临床中新型生理-心理治疗模式提供更多理论支持。方法随机选择进行Ⅱ类牵引的青少年患者160例,其
【关键词】小学数学 创造性思维  培养途径  【中图分类号】G 【文献标识码】A  【文章编号】0450-9889(2013)10A-  0022-01  随着年龄的增长,小学生的独立思想和行为的主动性都为创造性思维的发展提供了良好的催化剂。因此,要让小学数学课堂教学灵动、优雅起来,就必须让学生在创造的火花中不断交流、碰撞出新鲜的知识。  一、动机激发:改善环境,营造创新氛围  浓郁的创造性氛围、
高中语文教学与学生品格的培养密不可分,高中语文课程标准指出:“高中语文课程必须充分发挥自身的优势,弘扬和培育民族精神,使学生受到优秀文化的熏陶,塑造热爱祖国和中华文明、献
目的:探讨血浆D-二聚体诊断缺血性结肠炎的临床价值。方法选择78例发病1 d内疑似缺血性结肠炎患者检测血浆D-二聚体,再行肠系膜下选择性动脉造影确诊。结果通过血浆D-二聚体诊
电力自动化就是利用现代化的计算机、通信技术、网络系统并结合发电厂和变电站,然后通过自动化的计算机系统进行信息数据的传输、共享和管理。电力自动化技术的是符合当今时代
在雷电灾害的事故分析中,发现防雷装置年久失修、失效、腐蚀,在建筑物装修改造中造成损坏,电气线路架空或缠绕在防雷装置上等原因是造成防雷安全事故的重要原因。因此,开展防雷装
通过对某企业进行现场卫生学调查和对现场职业病危害因素粉尘、毒物、噪声和高温的检测,结果表明,粉尘和噪声超标,成为水泥生产企业职业病危害关键控制点。
蔡运章先生是我国著名的考古学家、历史学家、古文字学家以及易学家,多次荣获中国钱币学最高奖"金泉奖",现任洛阳易经学会会长、中国殷商文化学会理事、中国钱币学会理事兼学