论文部分内容阅读
说话人识别技术相较于其他生物识别技术更加自然,但从技术成熟度来讲,说话人识别技术仍然是在发展中的生物识别技术。目前说话人识别技术中存在两方面的技术难题,从特征提取角度来看,由于人体发声系统的易变性,需要从大量的语音样本中提取说话人的声纹特征,大量冗余样本的存在为训练分类模型带来了极大困难。从识别方法角度来看,采用单分类器的说话人识别系统的泛化能力较弱,分类器的分类精度较低。针对上述问题,本文做了如下研究:(1)针对不同应用环境的语音信号特征提取方法。在现实环境中说话人发声过程中存在不同程度的噪声干扰,针对不同噪声环境采用正确的语音特征才能实现对说话人特征的有效表征。通过真实场景的实验对比研究,针对强噪声环境,提取梅尔频率倒谱系数及其差分系数作为单帧信号的特征能够有效地去除噪声影响,对语音信号的表征能力较好;针对弱噪声环境,幂率归一化倒谱系数及其差分系数作为单帧信号的特征可以在相同计算复杂度下更好的表征语音信号。(2)基于近邻传播(AP)聚类的声纹特征样本筛选方法。针对说话人声纹样本数量过大导致分类器训练成本较高问题,利用AP聚类对单帧信号特征样本集进行聚类,原型样本在其簇内具有典型代表性,利用聚类原型样本表征与其相似的样本,删除冗余样本,实现语音信号特征样本筛选。在实际数据集上的对比实验表明,本文提出的样本筛选方法在保证识别准确率的基础上,能够有效压缩训练样本集合,压缩率能够达到85.19%-92.95%,从而大幅降低分类器训练成本。(3)基于集成学习的说话人识别系统构建方法。针对单分类器说话人识别模型泛化能力较弱的问题,通过多次随机抽样抽取训练样本子集,采用随机BP神经网络算法参数扰动策略建立多个BP神经网络分类模型,并利用投票法确定最终的分类结果。实验结果表明,该方法有效克服了基于单分类器说话人识别系统泛化能力不足的问题,使得系统识别率得到了有效提升。无论是高保真的AISHELL中文数据库的实验结果还是针对不同噪声环境下采集的自采集数据库的实验结果,都表明了本文所提方法的有效性。本文所提出的近邻传播聚类方法能在保证表征说话人本征特征的同时降低网络训练成本,提出的基于多BP神经网络的集成学习框架提高了说话人识别系统的泛化能力与准确性,丰富了说话人识别技术的相关理论和实践。