论文部分内容阅读
发音质量的自动评测(以下简称“评测”)是一种学生按照指定文本发音,计算机根据发音质量反馈出分数的技术。它的目标是赋予计算机担任虚拟教师的能力,对学生的发音质量进行公正、客观、高效的评测,缓解专业口语教师严重稀缺的问题。在学习上,它能帮助学生更好的了解发音水平,提高口语学习效率和促进自学的进行;在考试上,它能辅助或者代替人工进行口语考试的阅卷,大幅提升阅卷效率及质量。因此,评测技术日益成为语音信号处理和现代教育的研究热点。在评测技术的研究中,帧规整对数后验概率(以下简称“后验概率”)是目前公认的最能反映发音质量的量化的测度。然而,本文对后验概率测度进行了全面的分析,指出其存在着如下两个重大缺陷:第一、不同音素的后验概率测度不能一致的描述音素的发音质量;第二、声学模型是后验概率计算的重要依据,而目前人们使用的语音识别的声学建模方式难以满足评测的要求。本文工作围绕上述两个问题展开,在评分特征提取、评测声学建模两方面均有创新。本文主要研究工作和成果概述如下首先,本文提出了可训练的音素相关的后验概率变换算法。本文证明了即使在拥有无穷数据的情况下,受到概率空间的影响,不同音素的后验概率测度仍然不能一致的描述音素发音质量。为弥补上述缺陷,本文提出了音素相关的后验概率变换方法。音素相关的变换根据最小化机器分与人工分均方误差准则训练得到,在测试时,通过对不同的音素的后验概率测度进行相应的变换,可使得变换后的测度能更一致的描述音素的发音质量。本文研究了线性变换和非线性sigmoid变换,推导并给出线性变换的显式全局最优解(线性回归),和非线性sigmoid变换的梯度下降优化算法。实验表明两类变换均能带来显著的评测性能改善。然后,本文提出了全新的面向评测任务的声学建模算法。声学模型是后验概率的重要依据,而评测技术的研究源于语音识别,因此至今人们仍采用语音识别的建模方法,所得到的仍是“语音识别声学模型”。而该方法忽略了评测任务的特点,存在难以避免的训练和测试不匹配的问题:若引入非标准发音参与声学模型训练,会导致声学模型“包容”非标准发音,严重影响系统性能;若仅采用标准发音进行声学模型训练,所得到的标准声学模型(通常称为Golden声学模型)与测试的非标准发音不匹配,难以精确描述实际测试中的方言发音的发音质量。因此,本文提出了全新的针对发音质量评测的声学模型训练算法。算法根据最小化训练集机器分与人工分均方误差准则(MMSE准则),利用覆盖各种发音质量的数据训练得到“评测声学模型”,能有效的弥补语音识别声学模型的缺陷。同时,该算法根据评测常用的后验概率设计,因此可以与音素相关后验概率变换、优化的概率空间等策略无缝的融合。实验表明,无论在全概率空间、优化概率空间还是音素相关的后验概率变换的配置下,相比语音识别声学模型,评测声学模型均有着显著的优势。本章研究证实了在评测任务中引入各种发音质量的数据,并在人工分的指导下训练声学模型的必要性。接下来,本文提出基于评测性映射变换(EMT)的无监督声学模型自适应算法。本文对评测声学模型性质进行了深入分析,并指出由于最大似然估(MLE)计及最大后验概率(MAP)准则与MMSE准则不一致,导致难以直接对评测声学模型进行有效的无监督自适应。因此,本文放弃了直接训练评测声学模型的思路,提出一种全新的基于EMT间接的评测声学建模方法。类似的,EMT仍然是利用各种发音质量的数据,根据MMSE准则训练得到,因此EMT具有与评测任务紧密相联的性质(即“评测性”)。在测试时,首先通过少量当前说话人数据,利用MLE/MAP准则进行声学模型自适应,在此基础上应用EMT,可将这种“评测性”映射至声学模型上,得到说话人相关的评测声学模型。该方法能有效的将无监督自适应中MLE/MAP自适应准则和声学模型训练中针对评测建模的各自优势完美的结合。实验证实了在不做自适应的系统中,利用EMT的间接建模方法能在一定程度上取代直接训练评测声学模型的方法;在做自适应的系统中,系统性能得到进一步提升。最后,本文对EMT训练算法进行了完善,将具体评测系统融入EMT的训练中,并提出EMT训练统一框架。研究表明EMT训练所依赖的人工分还包含了与后验概率测度无关的发音流畅度、完整度的评测;另一方面,评测系统种类繁多,MMSE的难以满足多数评测任务的要求。为解决上述问题,本文提出将具体的评测系统融入EMT的训练的方法。在推导过程中,本文发现不同的评测系统的个性,即评分目标、评分特征、评分算法等,仅影响“音素斜率”的计算,因此,在得到训练集中所有音素的斜率后,我们可采用统一的方法完成EMT的训练。本文将其命名为EMT训练统一框架。EMT训练统一框架为不同系统的后验概率测度的优化提供了理论指导,大大拓展了EMT的应用范围。在统一框架的指导下,本文成功将PSC自动评测系统融入EMT的训练中,并取得了整体性能的显著提升。最后,本文利用统一框架,再将音素相关后验概率变换该系统中,取得了显著超过国家评测员的评分性能,表明了融入音素相关后验概率变换的EMT训练统一框架能较完美的解决后验概率策略的两个问题。