论文部分内容阅读
音频信号含有丰富的信息,并具有非接触性、自然性和采集设备成本低的优势,使得音频信号识别技术在实现人机交互和各种电子产品智能方面具有很好的应用前景。实际应用中,说话人语音不可避免地会受到开放环境的影响,从而降低说话人识别的准确率。稳健语音特征提取算法能有效降低噪声对说话人语音特性的影响,提高说话人系统的分类性能,因而受到广泛关注。作为音频信号识别技术的另一个分支—音频场景识别技术,可以使各类设备根据音频信息自动地感知环境特征,具有听觉智能性。当前,音频场景识别的问题己成为一个研究热点。在前人研究工作的基础上,本文对说话人识别中的稳健语音特征提取方法、音频场景识别中的特征选择方法和模型优化方法进行了研究,具体包括:(1)研究了一种基于最小方差无失真响应和感知特性的倒谱特征提取方法。作为梅尔频率倒谱系数的一种改进算法,该方法能有效解决梅尔频率倒谱参数在混有背景噪声的语音条件下系统分类性能下降的问题,从而提高了识别系统的稳健性。(2)给出一种基于局部判别基的特征选择方法。该方法采用两个判别准则对特征向量在类间的区分能力进行评估,按判别值大小进行排序,选取前N个特征向量组成特征子集。采用HMM分类器对选取的特征子集进行评估,对比不同N值对应的系统识别率,把最高识别率对应的N值作为最佳经验值。在模型训练和识别过程中,能够在线选取音频样本的特征子集。本文把基于局部判别基的特征选择算法应用于音频场景识别系统,通过对比实验表明,该方法能有效地提高系统的分类性能。(3)研究了一种基于支持向量机的隐马尔可夫模型优化方法。针对隐马尔可夫模型在训练类的参数时不具有判别力的问题,进行了改进。在改进方法中,首先训练连续隐马尔可夫模型参数,使用支持向量机对参数进行判别性训练,然后用训练得到的支持向量对原始模型参数重新估值,得到新的模型参数。通过改进方法与隐马尔可夫模型的对比实验,表明改进方法在一定程度上提高了音频场景识别系统的分类性能,实现了对隐马尔可夫模型的优化。