论文部分内容阅读
声调在汉语中有着构词辨义的作用,声调的准确程度是判定普通话好坏的重要因素之一。因此,声调评测子系统也是计算机辅助语言学习(CALL)系统以及普通话水平测试(PSC)系统的重要组成部分。在连续语流中,因为当前音节受上下文内容的影响,所以声调中存在着不可忽视的变调和连续现象,对这种现象是否处理以及如何处理将对声调评测系统的性能产生很大的影响。本文考虑连续语音基频曲线中存在的各种超音段信息,对传统三音节声调轮廓特征的GMM模型进行特征的改进,以提高评测算法打分的准确度。本文主要研究成果如下。1.基频曲线的求取:传统基频曲线FO的求取,只得到了单个音节的基音频率,却忽略连续语流中两个音节之间声调的转换信息。本文考虑音节中辅音的基音频率可以代表前一音节与当前音节的声调转移特征,对三音节中的清辅音部分用Spline(?)(?)值法来拟合转移的声调曲线。实验表明,基于曲线插值拟合的GMM模型评测方法可以使测试集的机器打分和人工打分相关性可以达到0.7309。2.声调特征的选择:Fujisaki模型将基频曲线拆解成三个不同的元件函数,它们分别为短语元件:代表语句的语调信息;强调元件:反映每个音节的音调走势,即为声调信息;基底频率:代表了说话人的个性信息。根据上述理论,本文在Fujisaki模型的基础上去除语句的语调和说话人个性特征,只对基频曲线中的声调特征建模,结果显示,改进特征相比于传统特征,打分相似度在测试集中提高了14.09%。3.声调模型的改进:在验证声调转移特征对评测相关度的促进作用中,本文在Fujisaki模型的基础上分别对声调的核心段和特征转移段进行建模,实验结果表明基于频率转移特征的打分相关度比纯粹核心段特征的打分相关度要高。并且相较于2中Fujisaki模型在打分测试集中的相关度0.7361,基于声调核心段的评测相关度只有0.6137。这也说明了音节之间频率转移信息的描述提高了声调评测的准确度。