论文部分内容阅读
语音中蕴含着丰富的说话人特征信息。说话人识别就是从语音中提取出这些个性特征并使用一定的识别方法识别出语音的说话人。随着信息技术尤其是语音通信技术的发展,说话人识别在金融证券、人机对话、司法鉴定、军事安全等领域显示出了极大的应用价值和广泛的应用前景。作为语音信号处理和生物特征识别技术中的一个重要研究方向,说话人识别技术经过近半个多世纪的发展,虽然有了很大进展,但是由于语音信号本身以及实际应用环境的复杂性,使得说话人识别系统离真正的实际应用还有很大距离。针对说话人识别中的难点,目前的研究热点主要集中在说话人语音特征参数的提取与组合处理、说话人概率模型的改进、以及带噪语音的说话人识别等方面。
针对上述研究热点,本文从抗噪性MFCC特征参数提取、共振峰轨迹的准确提取、语音非对称包络提取、文本无关说话人识别模型、文本有关说话人识别模型等方面对说话人识别技术进行了较为深入的研究。具体研究内容和成果如下:
1.总结了说话人识别研究的现状和发展。综述了说话人识别的基本理论和关键技术。
2.总结了特征差分和特征均值规整抗加性噪声的一般原理。从简化的含噪语音模型出发,提出一种基于频谱均值归整(SMN)的抗噪性MFCC参数提取方法。实验表明SMN能较好地抑制加性噪声.进一步的理论分析表明,联合使用SMN与CMN能同时有效抑制加性噪声和卷积噪声。
3.详细研究了说话人概率模型GMM及其训练方法。在特征序列“双独立”假设条件下,基于单维特征概率密度估计提出一种参数更加灵活的SGMMs模型,在引入非参数概率密度估计的基础上,对SGMMs模型的3种训练方法(“EM+FIR滤波”、“EM+FIR滤波+高斯元拟合”、“高斯核密度估计+高斯元拟合”)进行了实验研究。实验结果表明,利用非参数概率密度估计方法可以有效降低模型中的高斯元数,从而大幅度提高系统的识别速度。此外,还进一步研究了概率模型的增量训练问题,提出一种基于高斯元聚类融合的SGMMs模型自适应增量训练方法。进一步实验表明了SGMMs模型及其各种训练方法的有效性。
4.在详细研究无损声管模型的基础上,提出一种基于共振峰增强的语音共振峰轨迹提取算法。实验表明,该算法在5kHz内提取语音前五个共振峰的性能都很好。与传统LPC方法相比,该算法提高了检测各阶共振峰频率的准确性和可靠性,而且算法同样简便,实时性能良好。目前该算法已经申请国家专利。
5.通过仔细观察可以发现,大多数汉语音节的包络并不对称,而是呈非对称的,并且在发相同音节时,这种包络的非对称性还因人而异。为此,本文提出一种新的语音特征—语音非对称包络,并给出一种基于复小波分析(CAWT)的语音非对称包络提取算法。进一步的实验表明,语音非对称包络也是一种有效的说话人特征,用它与MFCC组成的混合特征可以提高说话人识别的性能.
6.研究了文本有关说话人识别的常用方法,提出一种基于矩阵正态分布(MND)的文本有关说话人识别方法,该方法提取识别单元的归一化特征矩阵作为说话人特征。在小人群说话人识别实验中,采用基频和前4个共振峰组成的混合特征验证了MND的有效性。另外,鉴于文本有关说话人的高效性和文本无关说话人识别的普适性,本文还提出一种基于MND和GMM融合的说话人识别系统框架。该识别框架对本文今后的研究工作有一定的指导意义。
语音特征和识别模型是说话人识别技术实用化的关键和难点。因此,本文在说话人语音特征和说话人识别模型方面获得的研究成果对今后说话人识别系统的实用化具有重要意义。其中,基于共振峰增强的共振峰轨迹提取算法和语音非对称包络不仅可以用于说话人识别,而且在语音信号处理的其它领域也有较高的应用价值。