基于嵌入神经网络的高斯混合模型的说话人识别的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:joshua5201314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是通过目标说话人语音中携带的说话人个性信息来识别说话人的身份,与其它生物信息识别技术比较,它具有系统设备成本低,语音采集方便等优点。说话人识别是最新科学成果的综合应用,它涉及到声学的多个方面,以及模式识别,神经网络,核函数等研究的最新成果。在信用卡,门禁,军用涉密等方面有着广泛的应用。特别在公安司法领域,说话人识别方法有取代传统声纹仪的趋势。尽管说话人识别不断在识别特征和识别方法等方面取得进展,但是实验室获取的语音与实际应用环境获取的语音差异性较大,因此把在实验室表现良好的说话人识别系统应用到实际环境,效果依然不够理想。除了在一些特定场,说话人识别系统要应用到现实生活,仍然还有很长一段路要走。   本文拟从消除倒谱特征中语义信息的影响,利用倒谱特征的时序性,进行说话人模型合成和特征映射,以及建立不同信道间的特征变换等四个方面进行说话人识别系统的研究,主要内容有:   实验表明,尽管GMM作为说话人识别模型理论上可以实现与文本无关的说话人识别,但是训练和测试时的语音上下文内容对识别结果还是具有很大的影响。当非目标说说话人的识别语音上下文与目标说话人训练语音上下文较接近时,则用该语音进行目标说话人测试时,错误接受的概率会大大提高。由此可知降低语音的语义信息对识别率的影响非常重要。本文提出把语音的上下文信息看作某种噪声,通过在高斯混合背景模型中嵌入自联想神经网络的方法来滤除这种噪声,神经网络起到数据整形的作用,从而增强了目标说话人数据的相似性,达到降低说话人语音上下文对说话人识别率影响的目的。   由于GMM方法只能表示征特征向量的空间分布,对于说话人识别这种特征向量具有明显的时序性的应用并没有更好的处理。虽然引入差分倒谱对识别率有一定提高,但是差分倒谱对每个说话人向量序列采用相同的差分系数是不合理的,不同的说话人差分系数应该是不同的;另外,差分系数是从数据拟合的角度得出的,而不是从增大目标说话人GMM模型的似然概率角度得出的。本文提出了一种嵌入时延神经网络的高斯混合背景模型说话人确认方法来解决上面提到的两个问题。该方法利用时延神经网络挖掘特征向量集的时序信息,然后把时序信息传递给GMM,每个说话人拥有一个属于自己的神经网络,并且通过极大化GMM似然概率(ML)的方法来训练时延网络参数,使时延神经网络挖掘特征向量的时序信息的方式更为合理。   模型合成可以由说话人一个信道下的识别模型获得另一个信道下的识别模型,而特征映射则把说话人不同信道下的特征向量映射剑一个公共空间,这样只需为每个目标说话人训练一个识别模型。基于极大后验概率方法(MAP)的说话人模型合成和特征映射,变换参数需要人为指定。我们提出了基于极大似然线性回归(MLLR)调整的说话人模型合成和特征映射方法。MLLR调整首先确定相应模型间线性关系,变换参数由训练数据确定,并且可以只调整均值向量。模型合成时,通过训练可以获得通用信道背景模型间的MLLR调整参数;特征映射时,通过训练可以获得Root GMM-UBM模型参数到通用信道背景模型的MLLR调整参数。实验结果表明,合适选取MLLR回归类,可以取得比相应MAP调整方法更好的识别效果。   除了模型合成和特征映射,学者们还提出了各种各样的解决方法来解决信道误匹配问题,这些方法适合于不同的信道条件。如倒谱减法适合于平缓变化的信道特性,模型合成和特征映射需要知道语音来自哪个信道,而因子分析由于需要大量语音信号和处理时间使其难以应用,因此需要寻找更为合适的与信道无关的说话人识别方法。基于这个想法,我们提出了一种结合自联想神经网络和GMM的方法,对不同信道间的特征向量进行特征变换,它是一种与信道无关的说话人确认方法。通过合理选择神经网络的大小,即当语音的信道已知时,选择较小的神经网络进行特征变换,而当语音的信道未知时,可以选择较大的神经网络进行特征变换,这样就解决了应用灵活性的问题。
其他文献
在进行各种高速运动装置的研究试验时,定量测定高速运动装置的表面压力和温度是了解其气动性能和热传特性的最佳手段之一。例如飞行器、导弹等研究,测定空气动力学载荷分布需
2019年1月14日,由机电产品再制造试点单位洛阳LYC轴承有限公司(以下简称“洛轴”)与中铁隧道局集团有限公司(以下简称“中铁隧道局”)联合研制的国内首台直径11m级盾构机主轴
中国共产党的成立,是中国历史上开天辟地的大事件.党领导和依靠全国人民实现:一是民族独立、人民解放;二是国家富强、民族振兴、人民幸福.是社会主义初级阶段的两大历史使命.
期刊
空间谱估计是阵列信号处理的两个研究方向之一,其应用涉及到雷达、通信和生物医学工程等众多军事及国民经济领域。空间谱估计技术大大改善了在系统处理带宽内空间信号的角度
多样化的数字媒体信息给人们的生活和工作带来不少方便和乐趣,而不乏心怀叵测之人为达到切身利益,采用数字编辑软件对多媒体文件肆意修改,致使信息安全问题层出不穷。因此,数字媒
随着社会的发展,物联网技术从一个被社会热议的话题阶段进入了一个实际产品推广的阶段,利用物联网技术发展智慧城市建设得到了政策的支持和推广。智慧城市建设中不可或缺的一部
近年来,智能光网络的发展引入了一部分自动控制功能,实现了自动连接管理。但当突发业务引起路由发生变化时,缺少智能化监控、调节和自我适应。因此,并不能真正满足动态业务的
螺旋桨空化噪声是水声目标在运动中重要的噪声源之一,包含了丰富的目标推进器种类信息和结构特征。这些特征宽容性强,具有较好的可分性,是识别水下目标识别的的重要判据之一
随着智能设备和物联网应用等的快速发展,无线网络的规模持续增大,大规模网络的性能分析因此得到大量的关注。网络规模扩大的同时,面临着两个主要的挑战。一方面,无线信道的开放性
目前MIMO技术已经成为无线通信中的研究热点。虽然MIMO技术能够使系统的性能得到提升,但是由于受到体积和成本的限制,移动终端安装多个天线非常困难,这就限制了MIMO技术的应用。