论文部分内容阅读
说话人识别又被称为声纹识别,是指从人声中提取身份信息从而实现对人的身份判别。与实验室的理想条件相比,实际应用场景中的说话人识别问题在于跨信道的识别结果较差,且实际应用中,为方便采集音频,用于训练声纹模型的样本量较小。因此,为了将说话人识别应用于智能家居场景下对多设备音频采集、训练及测试的工程应用中,需要重点研究在样本量较小的情况下的说话人识别问题。首先,本文建立了适用于小样本多设备情况下的说话人识别的数据库。说话人识别数据库人数为31人,每人录音时长为10分钟,其中朗读部分约为8分钟,该部分作为训练集,自由发言部分约为2分钟,该部分组成测试集。本文使用多个设备进行数据采集,针对不同的设备选择合适的参数进行预处理步骤,针对每个设备,使用对应设备采集的音频进行说话人模型建立与识别。当训练设备与测试设备不一致时,识别准确率下降严重。因此对于待测音频,在进行设备识别后,使用对应设备训练的说话人模型进行识别,从而提高由多个录音设备形成的说话人识别平台的说话人识别准确率。其次,以梅尔倒谱频率系数及高斯混合模型-背景通用模型作为说话人识别算法的基线模型,并在自建数据库上进行实验。本文设计并实现了针对常用的说话人识别模型的三类改进方案,针对常用的说话人识别的基线模型,分别提高了2%、4.94%及9.14%。第一类改进方式为通过对常用音频特征及说话人识别模型组合进行选择,可得到针对每类设备的最优特征及模型组合,最终将识别率提高了2%。第二类改进方式为通过基于高斯混合模型-背景通用模型的八类数据增强方式改进基线模型,并针对不同的设备选择最优的数据增强方式。结果证明,相对于基线系统,改进系统的识别率可获得4.94%的提升。第三类改进方式为使用增强经验模式分解算法对原始音频信号进行分解后,提取多类特征并进行组合,设计多通道残差网络后进行多分类说话人识别,并针对不同的设备选择最优的特征组合方式。结果证明,相对于基线系统,改进系统的识别率获得9.14%的提升。综上所述,本文通过多种方式对基于智能家居系统的小样本说话人识别系统进行改进,使得说话人识别效果获得了显著的提升。