论文部分内容阅读
在计算机辅助语言学习CALL(ComputerAssistedLanguageLearning)中,语音处理技术的应用越来越广泛。当今已经存在很多方法来判断和评估发音的准确性,并取得良好的结果。对于口语中重音的评估,它们大多是通过制定发音的语法规则,根据规则来建立语音模型来判断发音的准确性。有时也会结合传统的语音特征,如音长,能量等。这些方法或者不能准确地判断重音的具体位置,或者表征语音特征方式有效性差,以致产生不可用的结果。本文主要研究的是在英语口语评估中,分形理论对于重音评估的应用。 本文首先给出两种分形维数的算法,计盒数法和多态覆盖算法,并对二者进行了详细的比较。由于一维分形维数对一帧语音信号的特征值仅仅使用一个数值进行表征,这种方法几乎是不准确的,因此引入了多尺度分形维数的概念,多尺度分形维数是通过一组向量值来表征语音特征值的。使用两种分形算法提取语音特征值,并根据最小二乘法将连续时间语音信号的分形维数值进行曲线拟合,通过大量实验比较这两种方法下的曲线变化趋势去比较两种方法对口语中重音的敏感度强弱,结果表明分形特征对于口语重音都十分敏感,据统计计盒数法中91.5%以上重音位置都是分形维数曲线的极值点,尤其是多态覆盖算法中可达96.2%以上重音位置是极值点,高于计盒数法中的准确率。因此课题中选择使用多态覆盖算法表征语音特征值,然后将此方法融合到sphinx4语音开发平台上,进行进一步的重音位置识别与标识。 接着本文介绍了如何具体应用已得结论来建立重音分析模型,如何进行重音位置判断,和如何进行重音评估的。首先找到一个分析曲线变化趋势的模型。根据分形维数值的拟合曲线变化趋势,来计算每个音节的在连续时间上分形维数的变化率,自动找到变化率的临界值β。利用shinx-4语音平台将分形数据与原始语料在时间上对齐,根据变化率的大小进行重音位置的标识。然后与已标注的原始语料进行对比统计,得到此发音中重音位置的正确率。 由实验结果可知此重音特征曲线分析模型正确识别率达82.56%,并且具有很好的可靠性与稳定性。