【摘 要】
:
近年来,语音识别技术随着深度学习领域的发展经历了巨大的技术变革,其中声学模型也逐渐由传统的高斯混合模型向神经网络模型发展,后者显著提升了语音识别系统的识别性能,使得语音识别能够较好的服务于人类的工业生产以及日常生活。然而在教育场景下,由于教学内容综合性强、话术表达丰富多样、教育场景语音数据集相对匮乏等问题,将语音识别应用到教育场景仍然是一项具有挑战性的研究。本文以实现教育场景语音识别为目标,首先研
论文部分内容阅读
近年来,语音识别技术随着深度学习领域的发展经历了巨大的技术变革,其中声学模型也逐渐由传统的高斯混合模型向神经网络模型发展,后者显著提升了语音识别系统的识别性能,使得语音识别能够较好的服务于人类的工业生产以及日常生活。然而在教育场景下,由于教学内容综合性强、话术表达丰富多样、教育场景语音数据集相对匮乏等问题,将语音识别应用到教育场景仍然是一项具有挑战性的研究。本文以实现教育场景语音识别为目标,首先研究了基于深度神经网络、时延神经网络、双向长短时记忆网络以及深度前馈序列记忆神经网络的声学模型,并通过实验对比不同网络结构的声学模型在教育领域语音数据集上的建模性能。实验结果表明基于深度前馈序列记忆神经网络的声学模型在识别性能和参数规模上均优于其它网络结构的声学模型,适用于实现教育场景下的语音识别系统。在此基础上,结合教育场景语音识别特点,本文通过区分性训练方法、说话人自适应方法以及语音数据增广方法对基于深度前馈序列记忆神经网络的声学模型识别性能进行优化。实验结果表明,以上三种方法在一定程度上均可提高教育场景语音识别声学模型的识别性能,且通过融合这三种方法,能够进一步降低识别词错误率。此外,本文还提出一种基于自动标注的语音数据增广方法,以解决教育场景语音数据获取成本较高的问题。实验结果表明,提出的方法能够有效扩充可用于训练的语音数据规模,提升语音识别性能,并具有稳定可靠,可操作性较强的优点。最后,通过融合以上四种优化方法,在测试集上取得了最优的识别结果,词错误率相比于基线模型相对降低29.8%,基本满足教育场景对于语音识别声学模型性能的实际需求。
其他文献
血脑屏障是脑内微环境得以实现的主要生理结构,而小胶质细胞作为脑内的主要本地免疫活性细胞亦起着清除细胞碎片、调整脑内微环境的作用。脑中风会引起血脑屏障破坏、神经元
背景与目的:放疗是鼻咽癌治疗的有效手段。本研究目的是分析大样本量调强放疗(intensity-modulated radiation therapy,IMRT)治疗鼻咽癌的效果、不良反应并探索其预后因素。
目的观察柚皮素-铜络合物在体外对人肝癌Hep-G2细胞增殖与凋亡的影响,探究其作用机制。方法将不同浓度柚皮素-铜络合物作用于体外培养的Hep-G2细胞,采用甲基噻唑基四唑法检测
欧内斯特.海明威是20世纪著名的作家,他写过很多影响深远的作品。其中,《老人与海》也许是他最成功的作品,获得了诺贝尔文学奖,也因此奠定了他在世界文坛的地位。《老人与海》是
从阐述国际收支失衡的现状入手,说明了我国国际收支失衡的原因。分析了国际收支失衡对我国货币政策中介目标和最终目标的影响。在对货币政策调节国际收支失衡理论分析的基础
创新是一个民族进步的灵魂,是一个民族兴旺发达的不竭动力.课堂教学是培养学生创新意识与创新能力的主渠道.本文通过剖析教学中影响学生创新的教师心理:权威心理、畏惧心理、无奈
"防患于未然"是祖国医学一贯强调的观点,从而形成了一套具有中国特色的、行之有效的摄生方法。精神摄生,修心养性是其中一个重要的内容,指出人如清心寡欲,精神保护得好,就不
目前,4G通信模块在电力信息采集行业中的应用越来越广泛。根据行业应用特点,要求模块在装置的正常工作电源掉电的情况下,仍具有保持与主站通信1min以上的能力。因此,4G通信模
台湾民谣歌手黄舒骏开演唱会,上台对观众说:“有许多专家告诉我,要以理性的态度谈恋爱。我常想,这些专家应该从来没有谈过恋爱。”他跟台下观众一起笑了起来,“不信你试看看,谈恋爱
音乐,不仅作为思想的载体,还可以直接作用于人的情感世界,使人产生一种独特的审美体验。音乐教学是培养学生审美能力和高尚情操的重要途径之一,它有助于扩大学生的音乐文化视