论文部分内容阅读
方言辨识技术就是让机器根据讲话者的发音判定其所属方言区域的一项技术,它在多语言信息处理、机器翻译、辅助人工咨询和公共安全等领域都有重要应用价值。以GMM为代表的概率统计模型将辨识问题转换成对语音特征分布的估计问题,取得了较好的识别效果。本文基于GMM对长沙方言、邵阳方言、衡阳方言和普通话进行了辨识研究,主要内容包括:阐述了方言辨识的基本原理,详细介绍了方言辨识过程中语音特征参数的提取、训练模型选取、模板匹配和识别的基本方法。研究了用于方言辨识的语音特征参数的提取方法。针对汉语方言是有调语音的特点,经过差分处理进行二次特征提取后获取了语音信号的动态特征参数,并对不同特征参数进行组合构造出能更全面反映语音特点的新特征参数。建立了基于GMM的方言辨识模型,研究了模型参数的选取,并用该模型进行了方言辩识实验,分析了训练模型时所用特征参数对辩识结果的影响。实验结果表明:动态特征参数在抗噪方面具有优势,可提高辩识系统的鲁棒性和识别率。针对模型混合数对辨识系统带来的影响,提出了基于SOM神经网络分类和高斯混合模型的方言辨识方法。该方法首先用SOM神经网络对语音特征参数进行聚类分析,再对每类特征参数建立相应的辨识模型,然后将各子模型的辩识结果相加融合。实验结果表明:该方法可减少模型中的混合数,提升系统的性能,具有较强的实用性。