论文部分内容阅读
声纹识别又称说话人识别,是生物特征识别的一种,自从声纹识别被提出以来,就有研究学者提出声纹识别的识别率是否会随着时间的变化而发生变化,经过多年的研究表声纹识别的识别率会随着时间的变化而发生变化。因此本文对声纹识别中的时变问题进行研究,主要工作包括:1.建立适合声纹识别时变特性的数据库。根据现有时变数据库可知时间越长识别率越差,但是较短的时间间隔同样也会对识别率产生影响。因此,结合实际应用,提出该数据库的设计原则:以一周为间隔,且等时间间隔,文本无关建立数据库。2.对说话人特征的时变特性进行分析。为了了解说话人特征的时变特性,需要减少其他因素的影响,因此我们选择同一个人在不同时间的相同文本进行分析,通过动态时间规整(DTW)发现时变特征的线性变化规律。根据线性变化的规律,采用不同的方法解决声纹识别中的时变鲁棒性问题。3.提出通过更新模型来提高时变鲁棒性的方法。以时间轴为位移方向,不断地更新训练模型的数据,同时去除相应时间较远的数据,从而做到不断更新训练模型,采用更新模型的方法提高鲁棒性是最直接并且最有效的办法,这样的方法可以保持与时俱进,有着良好的效果,但是同时也会大量的数据存储问题。4.声纹识别中的时变问题,在某种程度上可以看作是信道的变化,根据人的发生原理,人发声的变化主要是由于声道发生了变化,而声道的变化可以认为是信道的变化,在解决信道变化的问题上,在语音识别上就已经有人使用联合因子分析(Joint Factor Analysis,JFA),以及更进一步的发展的i-vector技术。因此本文利用i-vector技术利用解决说话人识别中时变问题。5.在使用i-vector的模型下,根据特征的时变特性,提出基于概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)的解决方法。由于特征随着时间的变化呈线性变化,我们认为可以通过PLDA学习出时变特征的线性变化,从而解决时变鲁棒性问题。