论文部分内容阅读
英语是一种“重音语言”,重音既是英语语音结构的组成部分,又具有区别词义和词性的功能,同时还是语调和说话节奏结构的基础。英语词重音检测一般使用时长、能量和基音等声学特征。由于这些特征除表征重音信息外,还包含大量其它语音信息,因此易导致重音检测性能不佳。本文在对重音“相对突显”和发音“更用力”本质深刻认识的基础上,从听觉模型和语音非线性产生模型的角度分别提出两类新特征,通过利用各类特征组合进行重音检测的实验,获得最佳特征组合。最后给出在计算机辅助语言学习系统中利用高鲁棒性重音检测特征组合实现重音发音质量评价和错误反馈的应用实例。本文主要贡献如下:
(1)通过统计分析与实验检验,得出重音检测中传统特征的最佳组合。利用ISLE数据库对各类时长、能量和基音特征进行统计分析,同时在搭建的重音检测实验平台上检验三类传统特征(组合)的重音识别性能(误识率)。根据统计分析与实验结果,验证了三类传统特征在重音检测中的贡献度并得到最佳组合;
(2)从听觉模型的角度提出基音同步幅度峰值和基音同步非线性加权时域能量特征。首先利用基音同步幅度峰值特征进行重音检测,在与MFCC特征各主要处理环节比较分析的基础上,得到对重音检测性能影响最大的因素—反映人耳基音同步机制的基音同步动态分帧方法。根据重音“相对突显”的定义,利用基音同步动态分帧方法,使用非线性能量因子,综合时长、能量和基音三方面的考虑,提出基音同步非线性时域能量特征。实验证明,该特征与时长、能量特征联合使用可使系统误识率降低3.58%;
(3)从语音非线性产生模型的角度提出四种新特征。首先利用语音非线性产生模型和TEO算子能够表征重音发音时“更用力”和“用力”受幅度和频率共同作用的特点,提取在时域和频域分别进行TEO运算的两种倒谱特征。然后使用临界子带特征验证了重音与各临界频带相关度不同的特点,接着利用Teager能量代替各子带的均方能量,提出临界带TEO倒谱特征。实验证明,该特征与时长、能量特征联合使用可使系统误识率降低2.69%:
(4)利用性别和国籍不同的数据集考察各类特征(组合)的重音检测鲁棒性,得出两类新特征鲁棒性优于传统特征的结论。通过考察各种特征组合在实验中的误识率,得出由基音同步非线性加权时域能量、临界带TEO倒谱、时长和能量组成的最佳特征组合,使用该特征组合可以使系统误识率降低5.61%;
(5)针对计算机辅助学习系统缺乏对韵律信息考虑的问题,通过在系统中增添超音段特征提取,重音评分映射和重音错误反馈三个子模块,实现对输入语音的重音发音质量评价和错误反馈。实验证明,使用该方法获得的重音发音质量得分与参考得分的相关度达到84.67%,该方法对重音发音错误的检出率和误检率分别为78.28%和10.76%。
综上所述,本文对各类表征重音/非重音区别的特征进行了深入系统地研究,得出重音检测的最佳特征组合,并利用这些特征构成的重音检测算法实现了计算机辅助语言学习系统的重音发音质量检测和错误反馈。