论文部分内容阅读
随着计算机的产生和互联网技术的发展,说话人识别作为生物认证的一种,凭借其独一无二的优势在人机交互领域一直备受关注。说话人识别技术已经从实验室转向了实际应用中,同时用户对其准确性、友好性和鲁棒性的要求越来越高。在实际应用环境中,说话人识别性能受到诸多因素影响,其中最主要的因素是环境噪声的存在。环境噪声污染了采集的语音信号,导致训练数据集和测试数据集之间的匹配度降低,引起识别性能下降。另一方面,随着云计算、大数据产业的发展,人们获得的信息量不断增加,为了减轻传输和处理数据的负担,信号的压缩感知技术应运而生。奈奎斯特采样下的说话人识别,当为了确保高的识别率而采集较长时间说话人语音时,采样数据量特别大,其中有许多冗余造成了采样资源的浪费,压缩感知理论可以很好地解决此问题。本文将压缩感知理论应用到噪声环境下的说话人识别系统中,直接对观测矩阵压缩后的观测序列进行特征提取,针对基于压缩感知的鲁棒性说话人识别进行研究,论文工作是导师国家自然科学基金工作的一部分,本文主要工作和创新如下:(1)研究压缩感知压缩比和语音分帧长度对识别系统性能影响。对行阶梯矩阵投影下的观测序列展开研究,研究压缩比和帧长对识别率的影响。发现在压缩比为1:2时,识别性能与传统方法相当;帧长过短或过长时,说话人识别率有明显的下降趋势,一般所取的帧长在20ms-30ms左右。(2)研究在有噪环境下语音压缩感知识别系统的特征参数和消噪技术。首先提出了基于谱减法的特征参数CS-SSMFCC,提高了系统的鲁棒性。将时频分析特性较好的小波阈值去噪应用到系统前端,发现小波软阈值去噪效果比谱减法更好,在15dB信噪比下,识别率可以达到90%以上。(3)语音信号是由激励源和声道函数共同作用的结果,基于行阶梯矩阵提取另一种关键特征参数—基音频率。为了提高识别率,提出一种将基音信息和Mel倒谱特征分数层线性加权融合方法,根据加权系数是否与每条测试语音有关,采用固定加权和动态加权两种融合方法,实验结果表明动态加权融合识别效果更好。在此基础上,将小波软阈值去噪增加到系统前端,设计一种新的抗噪融合识别系统,增强了系统的鲁棒性。