论文部分内容阅读
汉语的韵律自动诊断是计算机辅助语言学习系统和口语自动评测系统中的重要核心技术之一。本文根据实际系统的需要,在深入分析当前主流韵律评估技术的基础上面,针对汉语普通话学习过程中韵律诊断关键问题,包括重音、声调、语调的诊断进行了深入的探讨和分析。本文对该领域主要的贡献和创新点有:
1.本文提出了基于超音段多特征融合的重音诊断方法,采用重音特征包含音高、时长、短时能量、基于TEO算子的子带能量以及基于状态拼接的PLP特征,同时融入了句子间重音的相对性。研究结果表明不同重音声学关联特征有效性按主次分为:时长、子带能量、音高、短时能量、PLP特征。同时,提出分声调建模的方法,来提升重音诊断的性能,建立了一套行之有效的重音诊断方案。
2.本文首次提出了基于主导集的单字声调聚类的诊断方法,用于重口音条件下声调的诊断。该方法适合特定应用背景,在实际的数据集合上面声调诊断的相关性水平达到了人与人之间相关性。同时,该方法能自动确定类别的个数,用于单字声调诊断,可以提供主要的声调错误并提供调型曲线作为信息反馈。与基于K-means声调聚类检错方法相比,能有效提高声调检错性能。
3.针对带重口音下连续语音的声调诊断,本文首次提出了基于聚类的连续声调诊断框架,形成了完整的声调诊断体系和技术框架。进行了多层面连续语音声调聚类诊断方法的研究,分别建立了基于Unitone、Bitone、Tritone及其分词融合的声调聚类诊断方法。为了解决Tritone数据稀疏的问题,本文首次提出了基于决策树的声调聚类诊断方法。实验表明:基于决策树的声调聚类诊断有效的提高声调错误诊断的性能,同时能够提供精细的声调反馈信息。
4.针对汉语计算机辅助语言学习系统中的陈述、疑问、感叹、祈使四种语调的识别和诊断进行了全面深入的研究和分析,本文采用基于超音段特征融合的语调识别和诊断方法,进行了基本特征音高、音长、音强以及高层韵律特征包括停顿、起伏度、重音、调型等韵律特征参数的分析和研究,同时采用SFFS特征选择的方案提升系统的性能。实验验证了该方法的可行性和有效性,获得了较优的结果。研究结果表明,在语调识别和诊断中特征的重要程度为:音高、音长、能量、停顿、重音、起伏度、调型。