论文部分内容阅读
随着全球经济的飞速发展,不同国家之间在政治、经济、文化、教育等各个方面的交流与合作越发频繁。越多的人开始学习除母语之外的另外一种语言。掌握一门交流语言,口语学习至关重要。高效的口语学习需要师生之间一对一、面对面的互动交流。然而,这种方式却受到时空和经济条件的限制。近些年来,随着科学技术的发展,在线教育越来越受欢迎,以云为核心的强大计算资源,高度普及的移动智能设备以及飞速发展的语音处理技术,这些有利条件使得计算机辅助语言学习系统(CALL)越来越受到人们的亲睐。然而,音素层面发音错误的检测与诊断,作为CALL系统的一个核心模块,其准确度依然有待进一步提高。近年来,深度学习,作为一种新的机器学习方法,在人工智能的各个领域都得到了广泛的应用和成功。在这一背景下,本文也着手探索深度神经网络(DNN)框架下更高效的发音错误检测算法。本文先针对口语学习的特殊性,改善原始的声学模型,然后从后验概率计算、假设检验模型和有监督学习分类三个不同的角度研究发音错误检测算法,拓展与改善传统的方法,提出了DNN框架下的新方法。首先,本文在语音识别声学模型的基础上,引入基频曲线特征,增强了CALL系统对中文声调和英文单词重读的判别能力。除语音识别的单词或汉字准确率外,CALL系统还关注对重读或声调的判别能力。基频曲线是其最主要的声学信号。然而,和谱特征不同,基频曲线是非连续的,清音段发声时声带不振动,没有基频值。基频曲线的非连续特性在传统的GMM-HMM系统中甚难直接处理,常用方法是在清音段做插值处理,再将其以连续信号进行建模。鉴于DNN对输入特征的类型和先验分布没有潜在的假设和要求,本文探讨了DNN框架下基频特征更为简洁的非插值处理方式,研究了DNN-HMM系统中各种基频相关特征以及插值和非插值两种嵌入方法对中文声调和音节识别结果的影响。实验发现基频的一阶和二阶梯度是影响声调识别的最主要因素,而清音段的插值或非插值方法对声调和音节的识别影响不大。但非插值处理方法简省了前端的插值处理过程。其次,本文将传统的发音质量评估(GOP)算法拓展至DNN的发音错误检测系统中,并简化计算过程,大幅度提高了口语错误检测的准确率。针对用户的非标准发音与标准发音模型之间的不一致,本文引入基于KL散度正则化的DNN自适应技术对声学模型进行自适应。针对传统GOP计算框架中,当前音素的发音错误会影响其相邻音素的GOP计算这一观测,进一步改善GOP的计算方法。在一个大规模的外国人学中文数据库中的实验结果表明,DNN的自适应技术和修正后的GOP能显著地提高音素层面发音错误检测与诊断的准确率。再次,本文提出一种基于语音学空间和KL散度距离度量的发音错误检测算法。语音学空间的基本元素为senone,其后验概率由DNN从声学特征中经区分性学习获得。DNN的区分性学习过程规整了不同说话人、传输信道、录音环境等外界噪声的干扰。因此,相对于声学特征空间,语音学空间更适宜发音错误的检测。另外,senone是非常小的语音单元,是描述语音学特性的基本元素,可更精确、全面地描述各个音素在不同上下文中的发音错误形式。鉴于此,本文提出在语音学空间中,显式地构造各个senone正确和错误发音的统计模型。将错误检测问题转化为了语音学空间中点的距离度量问题。另外,为了进一步提高语音学空间中各个senone间的区分性,本文还提出一种基于语音学特征和KL散度量度的隐状态聚类算法,获得新的决策树、senone集以及声学模型。新的声学模型也进一步提高了发音错误检测的准确率。最后,考虑到某些音素样本不足,无法独自构建一个鲁棒的分类器,本文提出一种新的基于神经网络多任务学习的高效分类器。将各个音素的所有二分类器嵌入到同一个神经网络模型中,通过共享底层神经网络,样本量不足的音素分类器可以借鉴其他分类器学习到的高层特征表达,从而改善分类器的性能。本文采用二项逻辑回归模型作为基本二分类器,其底层共享的网络为普通的前馈神经网络。我们在一个英文和中文语言学习数据库上分别验证了基于共同学习分类器在发音错误检测方面的系统性能。