论文部分内容阅读
非母语口音、少数民族语口音是汉语普通话连续语音识别应用中必须面对的问题,论文研究民族语口音普通话的口音识别和语音识别。论文以傣语、傈僳语和纳西语口音为实例,研究如何利用民族语口音的发音变异规律,在低成本和易于扩展的前提下,实现由标准普通话识别器到民族语口音普通话识别器的变换。
论文的主要工作如下:
1.设计、构建“云南少数民族语口音普通话语音数据库”,为系统研究民族语口音普通话的口音识别和语音识别奠定基础。该语音库包括傈僳语、傣语和纳西语等三种民族语口音普通话,共有52位发音人,语音数据量为32.63小时。
2.基于支持向量机研究民族语口音识别,比较多种特征参数集的识别率。基于单个SVM的实验结果表明:在基音频率(F0)、短时能量(En)、MFCC和第一共振峰(F1)等4种特征子集中,基音频率参数集的性能最好;超音段特征(F0、En)的性能都优于音段特征(F1、MFCC)的性能。探索分类器集成方案,提出一种新的基于决策模板的SVM口音分类器集成方法。分别利用三种特征参数组合进行测试,结果表明:该集成方法的识别率都高于传统的多数投票法的识别率;基于F0+En+MFCC+F1,该集成方法有最高识别率,达96.1%。
3.比较研究MLLR、MLLR+MAP声学模型说话人自适应方法应用于民族语口音普通话的有效性,探索有监督/无监督、自适应语句数等对识别率的影响。实验结果表明:采用MLLR,当自适应语句数为30时,傈僳语和纳西语口音的不带声调的音节识别率都超过52%,带声调的音节识别率都超过37%;进一步增加自适应语句数依次到100、500时,其识别率的提高幅度逐渐减小。采用MLLR+MAP,当自适应语句数为500时,两种民族语口音不带声调音节识别率都到达了基线系统识别标准普通话的水平(82.4%),而带声调音节识别率已经明显超过基线系统识别标准普通话的水平(63.8%)。
4.采用专家知识指导下的数据驱动方法,研究民族语口音普通话的声母、韵母和音节的变异规律;提出一种新的具有易于扩展性的多发音词典生成策略,以实现用某种口音的音节混淆矩阵自动构建该种口音的多发音词典。实验结果表明:引入二元语言模型后,采用多发音词典,三种口音普通话的识别率都高于采用单发音词典的识别率。