论文部分内容阅读
在近年来,语音识别系统已经广泛应用到日常的工作生活中,例如语音拨号系统。同时,现在的语音识别系统仍然是依靠模式识别技术来实现语音信号的分类判别,模式识别技术关键部分是模型的构建,所以选择一个合适的分类器是得到良好识别效果的基础。 压缩感知是近年来发展较好的技术,基于压缩感知原理的分类器已经在图像识别领域取得很好的效果,所以本文将介绍两种基于压缩感知的稀疏表示分类器的基本原理和算法,然后通过非特定人的孤立词识别和文本无关的说话人识别,检验两种分类器的识别性能,同时对其进行比较分析。本文从TIMIT语音库采集训练测试样本,然后通过一系列信号处理得到语音信号的Mel倒谱系数,因为稀疏表示分类器是传统的统计模型,所以用于模型训练测试的样本应该是维数相等的特征向量,参考支持向量机中的特征处理方法,将高斯混合模型平均超矢量作为两种分类器的特征向量。 利用所有的训练样本构成一个过完备字典,该字典的原子是训练样本,他们按类依次进行排布,使得每类原子组成的子字典具有类别信息。测试样本就是通过这些训练样本线性组合,从而得到用于分类判别的稀疏系数,即是在稀疏限制条件下求解最小e1泛化,得到测试样本的稀疏系数。得到的稀疏系数将在某一个类别的所有项非零,而其他类别的项几乎为零。最后计算测试样本对于每一个类别的重构错误,值最小的类别就判定为测试样本的类别。这就是以压缩感知原理为基础,从而得到的稀疏表示分类器。实验结果显示稀疏表示分类器在说话人识别系统中具有很好的识别性能,且在一定程度噪声下系统具有较好的鲁棒性。而在孤立词识别中,识别性能因为特征等原因,无法达到说话人系统的识别水平。 基于Fisher判别字典学习的稀疏表示分类器是在上述分类器的基础上添加了Fisher字典学习的过程,即是在稀疏系数矩阵训练过程中添加了Fisher判别准则。基于Fisher字典的判别属性主要表现在两个方面:首先是每个类别的子字典可以很好的表示本类的样本,而对其它类别的样本无法很好的表征;其次是通过Fisher字典学习后的系数,类内距小类间距大。因此,基于上述两方面通过Fisher准则训练得到字典。然后在判别过程中,同时利用重构错误和稀疏系数进行分类判别。实验结果显示在无噪声的环境下,基于Fisher判别字典学习的稀疏表示分类器较原来的稀疏表示分类器,识别性能有所提高。但在添加噪声的情况下,识别性能不如原来的稀疏表示分类器。