论文部分内容阅读
说话人识别技术,作为现代重要的生物信息识别技术之一,通过对说话人语音样本提取的特征参数进行建模分类,从而分辨说话人身份。目前,NIST(NationalInstitute of Standards and Technology)国际评测结果显示,基于PLDA(ProbabilisticLinear Discriminant Analysis)模型的说话人识别系统可获得突出的识别效果。然而,现实生活中,语音样本很容易受到环境噪声的干扰,有时候注册语音和待测语音的样本时长是不一致的,甚至,在某些信道较难采集到丰富的语音样本数据以供PLDA模型训练,上述这些复杂问题,在一定程度上制约了基于PLDA说话人识别系统的实际应用。因此,对基于PLDA模型的说话人识别技术进行研究是非常有意义的。 本文主要针对说话人识别系统中语音增强、时长不匹配和训练样本有限这三个问题,分别提出了有效的解决方案。本文的主要工作及创新点如下: 1、基于稀疏表示原理,提出了自适应更新字典的双稀疏语音增强方法,并且,使用与待处理带噪语音无关的干净语音经K-SVD(K-Singular ValueDecomposition)训练统一字典原子,在确保语音增强效果的前提下提高了计算效率; 2、引入语音时长调整PLDA模型分布的协方差参数,提出了基于时长约束的概率修正PLDA的说话人识别方法,提高了说话人识别系统在时长不匹配时的识别效果; 3、利用大样本信道训练得到的PLDA参数为先验值,提出PLDA参数更新的跨域迁移策略,以解决小样本信道PLDA建模的困难,并在语音样本有限的前提下提高了识别性能。 本论文的研究工作还包括一个跨信道说话人识别语音库的建设。该语音库采集了100个说话人语音样本,含有丰富的信道信息(耳麦、会议麦、录音笔、固话信道、两路移动电话信道、网络语音信道等),即,对每个说话人同步在八个信道录制相同文本内容。这个数据库的建立对进一步研究跨信道说话人识别及文本相关说话人识别系统都具有重要意义。