论文部分内容阅读
说话人识别是一种以人的语音信息来鉴别说话人身份的生物识别技术,目前一些比较成熟的生物识别技术如指纹识别和人脸识别技术已经在商业应用上取得了很大的成功,与此相比说话人识别技术凭借易获取、经济性以及非接触性等独有的优势,在金融服务、国家安防、司法公安和医疗教育等领域都有着广阔的应用前景,存在着巨人的潜在商业应用价值。
经过半个多世纪的发展,说话人识别技术在实验室环境下已经取得了很大的成功,其识别率呵以达到95%以上。但由于说话人识别技术自身存在的对环境噪声敏感,易被模仿攻击等特性,同前距离大规模商用还有一段路要走。当说话人识别系统面临实际应用时,一旦应用环境和训练环境不一致,其性能会急剧下降。并且,由于环境噪声的多变性,系统训练时无法预测实际应用中的环境噪声,这样的话一些针对特定噪声的处理方案可能会达不到预期的效果。本文分别在经典的GMM-UBM框架和近几年流行的i-vector框架下对噪声鲁棒的说话人识别技术进行了探究,主要研究内容如下:
1)在GMM-UBM框架引入环境自学习和自适应思想,通过改进的矢量泰勒级数(VTS)刻画环境噪声模型和说话人语音模型之间的统计关系,提出一种具有环境自学习能力的鲁棒说话人识别算法。系统应用中每当环境变化时利用语音输入前采集到的环境噪声信号来迭代更新环境噪声模型参数,进一步基于VTS确立的统计关系将说话人语音模型自适应到实际应用环境来补偿环境失配的影响。说活人辨认实验结果表明,提出的方法在低信噪比条件下对于不同种类的噪声都能显著地提升系统的识别性能。
2)在i-vector框架下进一步探究了矢量泰勒级数噪声补偿方案,结合i-vector矢量的统计特性,从特征域出发,利用矢量泰勒级数方法得到的含噪与纯净特征间的关系,在i-vector空间推导出含噪i-vector矢量和对应的纯净i-vector矢量之间的统计关系,最终可以实现在i-vector空间直接对含噪i-vector矢量进行去噪。实验结果表明这种i-vector空间的直接去噪方案要比在特征域用矢量泰勒级数进行特征补偿效果好。
经过半个多世纪的发展,说话人识别技术在实验室环境下已经取得了很大的成功,其识别率呵以达到95%以上。但由于说话人识别技术自身存在的对环境噪声敏感,易被模仿攻击等特性,同前距离大规模商用还有一段路要走。当说话人识别系统面临实际应用时,一旦应用环境和训练环境不一致,其性能会急剧下降。并且,由于环境噪声的多变性,系统训练时无法预测实际应用中的环境噪声,这样的话一些针对特定噪声的处理方案可能会达不到预期的效果。本文分别在经典的GMM-UBM框架和近几年流行的i-vector框架下对噪声鲁棒的说话人识别技术进行了探究,主要研究内容如下:
1)在GMM-UBM框架引入环境自学习和自适应思想,通过改进的矢量泰勒级数(VTS)刻画环境噪声模型和说话人语音模型之间的统计关系,提出一种具有环境自学习能力的鲁棒说话人识别算法。系统应用中每当环境变化时利用语音输入前采集到的环境噪声信号来迭代更新环境噪声模型参数,进一步基于VTS确立的统计关系将说话人语音模型自适应到实际应用环境来补偿环境失配的影响。说活人辨认实验结果表明,提出的方法在低信噪比条件下对于不同种类的噪声都能显著地提升系统的识别性能。
2)在i-vector框架下进一步探究了矢量泰勒级数噪声补偿方案,结合i-vector矢量的统计特性,从特征域出发,利用矢量泰勒级数方法得到的含噪与纯净特征间的关系,在i-vector空间推导出含噪i-vector矢量和对应的纯净i-vector矢量之间的统计关系,最终可以实现在i-vector空间直接对含噪i-vector矢量进行去噪。实验结果表明这种i-vector空间的直接去噪方案要比在特征域用矢量泰勒级数进行特征补偿效果好。