基于深度学习神经网络的语音识别研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:Final_believe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习是近年来在机器学习领域出现的一个新的研究热点,其最早源于人工神经网络(ANN)的研究。它通过模仿人脑多层次的模型结构,对底层信息经过多层非线性变换,逐步提取低层特征形成更加抽象的高层表示,来发现数据的本质特征。将深度学习技术结合多层神经网络应用于语音识别的研究,具有重要的理论意义和实用价值。  本文首先对语音识别系统的基本原理和隐马尔科夫模型(HMM)的基础知识进行了讲解,综述了传统的语音识别方法并分析了它们的优缺点。对预加重、端点检测、特征参数提取等过程都进行了仿真实验。  论文重点研究了基于深度学习的多层神经网络。对标准误差反向传播(BP)算法和改进的BP算法进行了仿真实验,通过对比改进方案前后的实验效果,可以看出改进的BP算法能够加快网络训练速度,提高效率。  深度自编码(DAE)网络是一种典型的深度学习模型,它由多个自编码器(AE)组成。DAE网络在训练时,先通过无监督学习,完成对隐含层的预训练,然后再用BP算法对网络进行精调,这样可以改善传统BP算法的缺陷,提高网络性能。本文利用Matlab软件分别构建了DAE网络和传统的BP神经网络,对孤立词识别进行了仿真实验,结果表明DAE网络识别准确率较BP神经网络有20.0%的提升。  将深度学习应用于连续语音识别更有实际意义。在连续语音识别中,利用深度神经网络(DNN)对声学特征建模,可以更好地提取语音信号的特征,从而有利于识别。另外,DNN声学模型在与HMM结合时,不需要对特征参数的分布进行假设,更符合真实情况。论文最后利用开源语音识别工具Kaldi在TIMIT语音库上进行了基于DNN的连续语音识别实验,对于开发集和测试集词错误率分别为18.1%和19.0%,与其他语音识别方法相比性能有大幅提升,从而验证了深度学习算法的有效性。
其他文献
传统基于字典学习的视频编码系统总是忽略其信号本身的特征分布,从而导致了很高的计算复杂度,降低了编码效率。本文提出了一种基于时空在线字典学习算法()来加速字典学习的收
蛋白质由氨基酸序列构成,氨基酸序列只有当折叠成特定的空间构象后,蛋白质才具有相应的生物学功能和活性。已有研究表明,自然界中蛋白质的折叠模式只有数百近千种,对这些蛋白
无线Mesh网络是一种高容量、高速率的新型分布式网络,它利用多跳无线网状结构为移动用户提供到骨干网的宽带接入。与传统无线网络相比,它具有频谱效率高、覆盖能力强、兼容性
作为信息隐藏技术的一个重要分支,数字水印技术近几年已成为多媒体技术研究的一个热点。数字水印技术开辟了一个崭新的信息安全途径,它通过在原始载体数据(图像、音频、视频等)中
国防武器装备如导弹,飞机等需对其严格监管并进行规范化测试保养。本课题是受某单位委托为某型号导弹研究一种用于导弹后期维护的弹载计算机调试方法。考虑到维护方便的需要,
身份验证或识别是目前计算机领域里的一个研究热点,如何可靠、方便地进行身份验证和识别己成为人们日益关心的问题。人脸识别技术早在六七十年代就引起了研究者的强烈兴趣,由于
学位
HINOC(High performance Network Over Coax)是利用有线电视同轴电缆的带外信道组建高速和高质量的多业务宽带接入网的一种新型接入技术。该技术完全利用现有有线电视网同轴
近年来,随着无线通信技术的迅速发展,人们对音频和视频等多媒体通信的需求越来越强烈。多跳的方式接入网络,可以缩短节点间距离,提高网络覆盖范围。无线多跳环境中的视频传送
空时编码将发射信号在空域和时域都引入联合相关,不仅可以同时取得分集增益和编码增益,而且能得到很高的频谱效率。比特交织编码调制方案克服了传统上编码和调制相互独立的缺