论文部分内容阅读
语种识别技术就是计算机能够自动识别出语音所属语言种类的过程,在多语言语音处理、语音自动翻译、安全监控等领域发挥着越来越重要的作用。本文基于音素识别的语种辨识,在音素建模、语言建模、系统融合等方面进行了相关的研究。论文工作的主要内容和贡献如下:
(1)研究实现了基于PPRLM的语种识别基线系统,并研究了模型平滑、信道差异、说话方式对识别性能的影响,使得基线系统性能提高到77.81%。
(2)将基于NN-HMM混合模型的音素识别引入了语种识别,系统性能提升超过10%。在此基础上,研究了多种自动聚类算法,提出一个Multilirlgual声学模型建模的方法,使得Multilirigual PRLM系统获得了跟PPRLM系统可比的识别正确率;同时经过与PPRLM系统融合,系统性能又提升约2%。
(3)提出了基于决策树的语言模型和随机决策树的语言模型,使得语种识别系统的性能提高约6%;同时针对包含更多信息的词图,又提出了基于词图的区分度语言模型建模,使得识别性能提高约8%。
(4)研究实现了多个基于声学特征的语种识别系统和基于LDA、Gaussian的系统融合方法。通过系统融合,基于声学特征的语种识别系统对PPRLM系统起到了较大的补充作用,在NIST2003年30秒语种测试集上,系统融合后准确率达到98.75%,接近或超过近年来国际上主流的评测系统。