基于深层神经网络的口语发音检测与错误分析

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：reaker

【摘要】

：

随着全球经济的飞速发展,不同国家之间在政治、经济、文化、教育等各个方面的交流与合作越发频繁。越多的人开始学习除母语之外的另外一种语言。掌握一门交流语言,口语学习至

【作者】

：

胡文凭

【出处】

：

中国科学技术大学

【发表日期】

：

2016年期

【关键词】

：

发音错误检测计算机辅助语言教学深层神经网络隐马尔可夫模型语音识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着全球经济的飞速发展,不同国家之间在政治、经济、文化、教育等各个方面的交流与合作越发频繁。越多的人开始学习除母语之外的另外一种语言。掌握一门交流语言,口语学习至关重要。高效的口语学习需要师生之间一对一、面对面的互动交流。然而,这种方式却受到时空和经济条件的限制。近些年来,随着科学技术的发展,在线教育越来越受欢迎,以云为核心的强大计算资源,高度普及的移动智能设备以及飞速发展的语音处理技术,这些有利条件使得计算机辅助语言学习系统(CALL)越来越受到人们的亲睐。然而,音素层面发音错误的检测与诊断,作为CALL系统的一个核心模块,其准确度依然有待进一步提高。近年来,深度学习,作为一种新的机器学习方法,在人工智能的各个领域都得到了广泛的应用和成功。在这一背景下,本文也着手探索深度神经网络(DNN)框架下更高效的发音错误检测算法。本文先针对口语学习的特殊性,改善原始的声学模型,然后从后验概率计算、假设检验模型和有监督学习分类三个不同的角度研究发音错误检测算法,拓展与改善传统的方法,提出了DNN框架下的新方法。首先,本文在语音识别声学模型的基础上,引入基频曲线特征,增强了CALL系统对中文声调和英文单词重读的判别能力。除语音识别的单词或汉字准确率外,CALL系统还关注对重读或声调的判别能力。基频曲线是其最主要的声学信号。然而,和谱特征不同,基频曲线是非连续的,清音段发声时声带不振动,没有基频值。基频曲线的非连续特性在传统的GMM-HMM系统中甚难直接处理,常用方法是在清音段做插值处理,再将其以连续信号进行建模。鉴于DNN对输入特征的类型和先验分布没有潜在的假设和要求,本文探讨了DNN框架下基频特征更为简洁的非插值处理方式,研究了DNN-HMM系统中各种基频相关特征以及插值和非插值两种嵌入方法对中文声调和音节识别结果的影响。实验发现基频的一阶和二阶梯度是影响声调识别的最主要因素,而清音段的插值或非插值方法对声调和音节的识别影响不大。但非插值处理方法简省了前端的插值处理过程。其次,本文将传统的发音质量评估(GOP)算法拓展至DNN的发音错误检测系统中,并简化计算过程,大幅度提高了口语错误检测的准确率。针对用户的非标准发音与标准发音模型之间的不一致,本文引入基于KL散度正则化的DNN自适应技术对声学模型进行自适应。针对传统GOP计算框架中,当前音素的发音错误会影响其相邻音素的GOP计算这一观测,进一步改善GOP的计算方法。在一个大规模的外国人学中文数据库中的实验结果表明,DNN的自适应技术和修正后的GOP能显著地提高音素层面发音错误检测与诊断的准确率。再次,本文提出一种基于语音学空间和KL散度距离度量的发音错误检测算法。语音学空间的基本元素为senone,其后验概率由DNN从声学特征中经区分性学习获得。DNN的区分性学习过程规整了不同说话人、传输信道、录音环境等外界噪声的干扰。因此,相对于声学特征空间,语音学空间更适宜发音错误的检测。另外,senone是非常小的语音单元,是描述语音学特性的基本元素,可更精确、全面地描述各个音素在不同上下文中的发音错误形式。鉴于此,本文提出在语音学空间中,显式地构造各个senone正确和错误发音的统计模型。将错误检测问题转化为了语音学空间中点的距离度量问题。另外,为了进一步提高语音学空间中各个senone间的区分性,本文还提出一种基于语音学特征和KL散度量度的隐状态聚类算法,获得新的决策树、senone集以及声学模型。新的声学模型也进一步提高了发音错误检测的准确率。最后,考虑到某些音素样本不足,无法独自构建一个鲁棒的分类器,本文提出一种新的基于神经网络多任务学习的高效分类器。将各个音素的所有二分类器嵌入到同一个神经网络模型中,通过共享底层神经网络,样本量不足的音素分类器可以借鉴其他分类器学习到的高层特征表达,从而改善分类器的性能。本文采用二项逻辑回归模型作为基本二分类器,其底层共享的网络为普通的前馈神经网络。我们在一个英文和中文语言学习数据库上分别验证了基于共同学习分类器在发音错误检测方面的系统性能。

其他文献

耳鸣耳聋主客观测听与中医证型的关系初探

目的:探讨各种主、客观测听指标与耳鸣耳聋中医证型的关系,为临床辨证提供新方法.方法:对按传统方法辨证明确的120例耳鸣耳聋患者,分别进行纯音测听、声导抗测试、电反应测听

期刊

耳鸣耳聋听力学辨证

耐盐复合菌剂生物强化处理高盐高硫废水

从实验室处理高盐废水的生物反应池中筛选到1株耐盐脱氮硫杆菌XSH7。为提高系统在高盐条件下的处理效果，将该硫杆菌和本实验室保藏的高效硝化菌SW32混合制成复合菌投加到SBR反

期刊

生物强化复合菌剂脱氮硫杆菌间歇式活性污泥法高盐高硫废水Bioaugmentation Mixed culture inoculum Thiobacil

2006-2009年铜绿假单胞菌医院感染及耐药性分析

铜绿假单胞菌是一种非发酵的革兰阴性杆菌,广泛存在于自然界当中,是一种条件致病菌,也是临床上最常见的引起院内感染的条件致病菌,由铜绿假单胞菌引起的医院感染发生率大于30

期刊

铜绿假单胞菌耐药性分析医院感染2009年条件致病菌革兰阴性杆菌院内感染抗菌药物

英国讨论推进个人能源开发进程

英国政府日前向国会提交了一条新修正案，旨在允许公众自主开发可满足1000人社区使用的电力。如果此方案通过，那么以家庭为单位安装风轮机和太阳能电板，以及国有电网回购电力等设

期刊

能源开发英国政府进程修正案可满足太阳能风轮机电力

民办高校大学生的学习问题及分析

民办高校大学生的学习问题比较突出,主要表现为：学习态度不端、学习习惯不良、学习方法不适、学习基础不牢等,这些问题严重影响了民办高校教育教学质量的提高。文章试图对造成

期刊

民办高校大学生学习问题private high students learning problems

我国粮食运输模式发展探析

<正>一、引言我国储运的粮食包含两方面:一是国家的专项储备粮,它由主管部门调配,用以确保平抑粮食市场、应对突发性事件及粮食进出口的需要;二是我们常说的贸易粮,由粮食经

期刊

散粮运输粮食运输铁路运输双层集装箱运输粮食漏斗车粮食集装箱运输发展探析

采空区上覆岩层“三带”划分理论计算与数值模拟结果对比

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

采空区冒落带裂隙带应力位移

铁铝盐基离子对土壤中水溶性氟环境效应的影响

氧化物或粘土矿物可吸附氟离子，但磷酸根离子与氟离子存在竞争吸附效应，造成氟的环境存在量、存在形态及生物效应更加复杂，影响了环境中氟污染的治理。试验选用典型贵州黄壤和石

期刊

土壤水溶性氟氯化铁/铝磷酸盐氧化物Soil soluble fluorine Iron/aluminium chloride Phosphate Oxi

面向森林火灾监测的无线传感器网络定位算法的研究

森林火灾监测具有重要的生态环境意义和社会经济意义。利用先进的技术手段快速有效地获取和描述森林环境变量信息,以实现森林火灾的自动监测是森林防火的前提和保障。无线传

学位

森林火灾监测无线传感器网络节点定位定位误差DV-Hop算法熵权灰色关联分析法最小最大法

内部控制与财务信息化关系研究

在信息化时代已经经济全球化发展的背景下,企业建立健全的内部控制体制、加强财务管理是必然趋势,这样才能够在日益激烈的市场竞争中占据更多的市场份额,提高经济效益.其中就

期刊

基于深层神经网络的口语发音检测与错误分析

与本文相关的学术论文