论文部分内容阅读
当前,对语音识别的研究已经越来越深入,采取的方法也是逐渐多元化。目前大多数语音信号分析利用了语音信号的频谱特征,通过一系列转换提取特征,训练出识别模型。但从另一方面思考,语谱图作为语音信号最直观的表达,不仅包含了频谱信息,还包含了基频、共振峰及其变化趋势,这些趋势组成的纹理可以表征出语音的音调、重音等发音特征信息,经验丰富的语音学专家甚至可以通过一张语谱图估计出其代表的文字含义。基于上述条件,可将语音信号的语谱图作为特征提取的一个输入,利用图像处理领域中较为成熟的特征提取及模型训练方法,对语谱图进行处理,探索语音信号处理和图像处理相结合的新领域。研究了基于脉冲耦合神经网络(PCNN)的发音优劣分类方法,探索将语谱图作为语音识别模型特征的可行性。收集了600个标准度层面的正负样本,将经过短时傅里叶变换生成的孤立词语谱图像作为特征输入,然后进一步地在特征层面和结果层面融合MFCC特征,送入支持向量机分类器进行优劣分类。实验结果表明,当特征含有语谱图时,使用PCNN可获得85%以上的识别准确率,比仅仅使用频谱特征准确率更高;当将图像特征与语音频谱特征相融合时,可获得更好的识别准确率,且基于识别结果投票重估的融合方法要优于基于特征输入的融合方法;以语谱图作为模型特征的突破点是可行的。研究了结合语谱图和卷积神经网络的非特定人发音评价方法。提出了结合宽带语谱图和窄带语谱图进行特征预处理的方法,其中窄带语谱图用于基频和谐波分析以完成端点检测,刨除无效的非语音段;宽带语谱图用于分隔出不同的纹理,以此实现音位级别的分割,创造出以音位为单位的有标签数据,该策略的分割准确率约为88%左右。然后将处理好的二维特征矩阵送入七层卷积神经网络中进行训练。实验表明,卷积神经网络对于音位语谱图的识别精度总体较良好,实际精度与谱图的分割预处理效果成正相关关系,不同的音位由于其本身发音特点不同可达到不同的识别效果,所有音位的总体识别准确率约为83%。