基于因子分析概率统计模型的说话人识别

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:tyzhaoxiqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是根据说话人所发语音,确定出说话人是谁的过程,也就是基于声音这个生物特征作为身份认证依据的识别技术。说话人识别具有广泛的应用前景,如保安、公安司法、军事、财经和信息服务等领域。其研究具有越来越重要的社会意义和实用价值,因而在国际和国内都受到了极大的关注。根据不同的应用场合,说话人识别可以分为说话人辩认和说话人确认。本论文就说话人识别中的说话人辨认问题,采用基于因子分析的概率统计模型方法,从与文本无关的角度,对语音端点检测、基于FAHMM和FAGMM的说话人模型、基于最大似然估计(MLE)的EM算法和基于区分性训练的MCE算法等各方面进行了较深入的研究。首先,详细讨论了说话人确认中两种最常用到的基于概率统计的说话人模型:隐马尔柯夫模型(HMM)和高斯混合模型(GMM)。仔细分析了HMM和GMM作为说话人模型的优越之处及其意义。在对HMM和GMM的概念进行了详细的讨论后,我们重点分析了影响其识别性能的一个关键问题,即模型的训练算法。主要介绍了常规的基于最大似然估计的Baum-Welch算法。接着,探讨了语音信号的端点检测及噪声鲁棒性问题。在强噪声环境下,现有的算法无法检测到准确的端点,研究自适应于环境噪声的语音端点检测方法是解决噪声背景下说话人识别和语音识别的关键。为了提高端点检测的正确率,选择合适的声学特征也至关重要。我们以表征语音信号复杂程度的近似熵(Approximate Entropy, ApEn)为声学特征,尝试性地提出了一种在噪声环境下的端点检测方法,即通过分析语音信号的近似熵来进行。实验表明,在强噪声环境下,该方法能够比较准确地检测语音信号的端点。为了解决说话人识别中的帧内相关问题,从模型端出发,引入因子分析的降维统计方法,结合目前的主流模型HMM和GMM分别对说话人进行建模,即FAHMM和FAGMM,并在我们自己录制的50个人(30个男性,20个女性)的数据集上,对这两个模型进行了与文本无关的说话人辨认实验:在基于FAHMM的实验中,讨论了三种不同的参数共享方式下说话人识别的性能。实验表明:FAHMM相对于采用对角阵形式的HMM,能够更好的解决特征矢量帧内相关问题;在相同的实验条件下,采用共享观测矩阵的FAHMM能够得到更好的识别性能,相对于HMM,误识率相对下降了30%。在基于FAGMM的系统中,我们推导了FAGMM的期望最大训练算法和最小分类错误算法。实验结果表明,FAGMM在同一测试数据集上的识别性能比GMM要好。而且通过可区分性算法,即最小分类错误算法使得系统的性能得到进一步提升。最后,对本论文的工作进行了总结与展望。
其他文献
目的:关于对“慢阻肺”病员的康复依从性产生影响的有效护理方法探究.方法:本文以分组研究方法进行对照研究,设置本文调查组为2018年10月到2019年3月来我院进行治疗的“慢阻
吕章申艺术简历一九五五年十二月生,河北人。高级建筑师。早年就读于清华大学建筑系建筑学专业,师从建筑学大家吴良镛、李道增等先生学习建筑学。其间跟王乃壮、华宜玉等先生
现有的视频编码标准,如ITU的H.261,H.263,H.264及ISO/IEC的MPEG.1,MPEG-2,MPEG-4,大都基于离散余弦变换(DCT)。小波变换不仅具有DCT变换中高频部分能量较低的优点而且没有方块效应,同时
衰老是伴随机体年龄的增加,生物体的生理机能减退、对众多疾病变得易感,甚至死亡的过程。已有研究发现衰老与众多生物学过程相关,如非编码小RNA的调控和表观遗传修饰水平的变化
目的:探究对乳腺癌术后化疗患者护理过程中采用PICC导管的临床应用价值和效果观察.方法:现随机选取2017年3月-2019年3月来我院就诊的乳腺癌术后化疗患者128例作为研究对象,按
目的:研究和探讨优质护理服务在高危妊娠孕妇产前护理中的应用.方法:随机选取我院在2017年3月-2019年5月收治的70例高危妊娠孕妇作为本次课题演研究对象,将患者分为护理组以
鲽形目鱼类(Pleuronectiformes)又称比目鱼,隶属脊椎动物亚门(Vertebrate)、硬骨鱼纲(Osteichthyes),两眼位于头部一侧,另一侧无眼,是唯一一个身体不对称的目,许多鱼类都是重
在妇产科临床护理工作具体实施期间,受各方面因素所影响,极易存在着各种安全隐患,以至于对孕产妇与医院自身均会产生极为不良的影响或者后果.对此,深入了解妇产科临床护理工
大鲵是我国特有的珍稀濒危两栖动物。由于过度利用、生境破坏等因素,造成其自然种群锐减,已被列为国家Ⅱ级保护动物。根据历史记录,在访问调查的基础上开展实地考察,2004年于
随着工艺进入深亚微米,信号完整性问题,包括由互连耦合电容引起的串扰噪声,电流流过电源/地两络产生的直流屯压降,电流密度过高引起的电迁移,已经对0.18um工艺和以下工艺超大