发音质量自动评测技术研究

被引量 : 0次 | 上传用户:qq8520963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
发音质量的自动评测(以下简称“评测”)是一种学生按照指定文本发音,计算机根据发音质量反馈出分数的技术。它的目标是赋予计算机担任虚拟教师的能力,对学生的发音质量进行公正、客观、高效的评测,缓解专业口语教师严重稀缺的问题。在学习上,它能帮助学生更好的了解发音水平,提高口语学习效率和促进自学的进行;在考试上,它能辅助或者代替人工进行口语考试的阅卷,大幅提升阅卷效率及质量。因此,评测技术日益成为语音信号处理和现代教育的研究热点。在评测技术的研究中,帧规整对数后验概率(以下简称“后验概率”)是目前公认的最能反映发音质量的量化的测度。然而,本文对后验概率测度进行了全面的分析,指出其存在着如下两个重大缺陷:第一、不同音素的后验概率测度不能一致的描述音素的发音质量;第二、声学模型是后验概率计算的重要依据,而目前人们使用的语音识别的声学建模方式难以满足评测的要求。本文工作围绕上述两个问题展开,在评分特征提取、评测声学建模两方面均有创新。本文主要研究工作和成果概述如下首先,本文提出了可训练的音素相关的后验概率变换算法。本文证明了即使在拥有无穷数据的情况下,受到概率空间的影响,不同音素的后验概率测度仍然不能一致的描述音素发音质量。为弥补上述缺陷,本文提出了音素相关的后验概率变换方法。音素相关的变换根据最小化机器分与人工分均方误差准则训练得到,在测试时,通过对不同的音素的后验概率测度进行相应的变换,可使得变换后的测度能更一致的描述音素的发音质量。本文研究了线性变换和非线性sigmoid变换,推导并给出线性变换的显式全局最优解(线性回归),和非线性sigmoid变换的梯度下降优化算法。实验表明两类变换均能带来显著的评测性能改善。然后,本文提出了全新的面向评测任务的声学建模算法。声学模型是后验概率的重要依据,而评测技术的研究源于语音识别,因此至今人们仍采用语音识别的建模方法,所得到的仍是“语音识别声学模型”。而该方法忽略了评测任务的特点,存在难以避免的训练和测试不匹配的问题:若引入非标准发音参与声学模型训练,会导致声学模型“包容”非标准发音,严重影响系统性能;若仅采用标准发音进行声学模型训练,所得到的标准声学模型(通常称为Golden声学模型)与测试的非标准发音不匹配,难以精确描述实际测试中的方言发音的发音质量。因此,本文提出了全新的针对发音质量评测的声学模型训练算法。算法根据最小化训练集机器分与人工分均方误差准则(MMSE准则),利用覆盖各种发音质量的数据训练得到“评测声学模型”,能有效的弥补语音识别声学模型的缺陷。同时,该算法根据评测常用的后验概率设计,因此可以与音素相关后验概率变换、优化的概率空间等策略无缝的融合。实验表明,无论在全概率空间、优化概率空间还是音素相关的后验概率变换的配置下,相比语音识别声学模型,评测声学模型均有着显著的优势。本章研究证实了在评测任务中引入各种发音质量的数据,并在人工分的指导下训练声学模型的必要性。接下来,本文提出基于评测性映射变换(EMT)的无监督声学模型自适应算法。本文对评测声学模型性质进行了深入分析,并指出由于最大似然估(MLE)计及最大后验概率(MAP)准则与MMSE准则不一致,导致难以直接对评测声学模型进行有效的无监督自适应。因此,本文放弃了直接训练评测声学模型的思路,提出一种全新的基于EMT间接的评测声学建模方法。类似的,EMT仍然是利用各种发音质量的数据,根据MMSE准则训练得到,因此EMT具有与评测任务紧密相联的性质(即“评测性”)。在测试时,首先通过少量当前说话人数据,利用MLE/MAP准则进行声学模型自适应,在此基础上应用EMT,可将这种“评测性”映射至声学模型上,得到说话人相关的评测声学模型。该方法能有效的将无监督自适应中MLE/MAP自适应准则和声学模型训练中针对评测建模的各自优势完美的结合。实验证实了在不做自适应的系统中,利用EMT的间接建模方法能在一定程度上取代直接训练评测声学模型的方法;在做自适应的系统中,系统性能得到进一步提升。最后,本文对EMT训练算法进行了完善,将具体评测系统融入EMT的训练中,并提出EMT训练统一框架。研究表明EMT训练所依赖的人工分还包含了与后验概率测度无关的发音流畅度、完整度的评测;另一方面,评测系统种类繁多,MMSE的难以满足多数评测任务的要求。为解决上述问题,本文提出将具体的评测系统融入EMT的训练的方法。在推导过程中,本文发现不同的评测系统的个性,即评分目标、评分特征、评分算法等,仅影响“音素斜率”的计算,因此,在得到训练集中所有音素的斜率后,我们可采用统一的方法完成EMT的训练。本文将其命名为EMT训练统一框架。EMT训练统一框架为不同系统的后验概率测度的优化提供了理论指导,大大拓展了EMT的应用范围。在统一框架的指导下,本文成功将PSC自动评测系统融入EMT的训练中,并取得了整体性能的显著提升。最后,本文利用统一框架,再将音素相关后验概率变换该系统中,取得了显著超过国家评测员的评分性能,表明了融入音素相关后验概率变换的EMT训练统一框架能较完美的解决后验概率策略的两个问题。
其他文献
大枣为鼠李科植物枣(Ziziphus jujuba Mill.)的干燥成熟果实,为药食同源的佳品,大枣性甘、温,归脾、胃经,具有补中益气、养血安神的功效。本文将近年来国内外对大枣化学成分
基于对日本住宅工业化内装部品发展源流的研究,系统分析了KEP、NPS、CHS、KSI四大内装部品体系的形成和特点,以及相互间的关系。并通过适应性内装部品体系实践,总结了日本KEP
期刊
黑格尔是德国古典哲学的集大成者。在黑格尔的哲学体系中,对社会历史的论述是其重要组成部分。黑格尔的《历史哲学》是在马克思主义出现以前对社会历史研究所取得的最重要的理
高等学校是为国家培养人才和输送人才的重要基地,高等学校教师则是直接的执行者。而对于健康的新理念的传播,高等学校体育教师有着不可推卸的责任,不仅仅是在理论上进行传道、授
便秘总由大肠传导失司而成,临床上多归责于胃热过热、脾气亏虚、肝气郁结、肾阴或肾阳不足等原因,而忽略了对肺脏的调治。肺与大肠相表里,主宣发肃降,肺热移于大肠、肺气亏虚
近年来人类的捕捞能力已经远远超过了海洋渔业资源的最大承受能力,从而危及了海洋渔业捕捞业的的可持续发展。为了捕捞生产安全和海洋渔业资源得到保护,需要对海上渔船进行监测
岩溶区地质条件复杂多变且存在诸多不确定性。岩溶区内可溶性岩的溶蚀对工程实践产生不利影响。隧道的修建改变了原有地下水平衡,同时由于溶洞的存在,水压力作用在隧道衬砌上
随着城市的快速发展,对广场、火车站以及公园等公共场所的清扫和保洁任务也就显得越发的艰巨。因此,设计与研究出适应现代化环卫发展要求的新型、高效、环保的清扫车具有重要
最近几年,光学腔和机械系统的耦合引起了人们的广泛关注,由一个光学谐振腔和一个机械振子构成的腔光机械系统更是成为了一个新的研究热点。最近,光机械系统中的强耦合效应,光机械