基于深度学习的语音识别研究

来源 :河北工业大学 | 被引量 : 5次 | 上传用户:21stsun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术可以实现人机交互,作为机器的听觉系统,它可以利用机器理解并识别语音信号,把语音信号转变为相应文本或者命令。作为一个新兴高技术产业,语音识别技术的应用越来越具有竞争性,具有广泛的应用领域和应用前景,对科学技术的发展也具有深远的意义。深度学习作为机器学习研究中的一个新的研究领域分支,可以模拟人脑的机制来解释数据。将深度学习用于语音识别成为语音识别领域的研究热点,并且有广阔的研究空间。论文主要研究的是基于深度学习的孤立语音词汇的语音识别。首先介绍传统神经网络和深度学习模型的对比,其次对语音识别技术相关的声学模型,语音特征参数进行介绍,最后讨论了将改进的深度学习模型在语音识别中的应用。本文主要创新点包括两方面工作。首先,在语音识别的语音特征提取阶段,使用主成分分析法对提取的特征参数进行降维处理,减少语音识别过程中占用和消耗的系统资源。其次,针对深度学习模型在对小样本进行训练时会出现过拟合现象提出随机退出的优化方法和随机下降连接的优化方法。前者是对节点的优化,后者是对权值的优化,两种方法都是针对深度学习模型的调优阶段进行改进,最大限度减少由于训练数据量较少使得深层网络模型训练出现过拟合现象,并且让权值的更新过程更具有独立性,而不是依赖于有固定关系的隐层节点间的作用,同时可以降低语音识别错误率,减少识别时间。随机退出方法和随机下降连接方法分别是向量模型的平均和矩阵模型的平均,随机下降连接方法的平均能力更强。采用上述的实验方法和模型,对孤立语音词汇进行训练和识别。实验结果表明,对语音特征参数进行降维,可以减少数据处理量,减少系统资源消耗;在深度信念网络的基础上引入随机退出优化方法和随机下降连接优化方法可以改善消耗时间,提升识别率,缓解过拟合现象。
其他文献
产品BOM信息管理是PDM系统的重要功能之一.目前,国内许多中小型企业都迫切地需要解决产品BOM管理的问题,但购买大型PDM软件对他们来说既费钱,又难于实施.针对这种情况,该文提
该文主要基于SPIHT技术设计并编程实现了一个视频图像压缩/解压缩系统(3DWSA),并根据此系统设计了一种新的视频图像压缩文件格式(zch文件格式),这种压缩文件格式是完全嵌入式
存储系统的性能问题一直是冯·诺依曼体系结构中的瓶颈问题.工艺技术和设计技术的进步使得现代微处理器的性能快速提升,而主存的性能提升却远不能满足这样的需求,因此在微处
该课题是国家自然科学基金重点资助项目"新型高频中小功率逆变电源控制技术和拓扑技术"的一部分,该文致力于远程监控系统的研究.在全面、细致地分析了远程监控系统的研究现状
随着计算机技术的发展,三维重建成为计算机视觉的研究热点,并在医疗行业、电影行业、游戏产业、工业建筑等领域得到了广泛的应用。三维重建的最终目的是恢复场景的三维模型,基于
非线性现象和混沌系统的广泛存在性决定了非线性控制研究方向将会是经久不衰的。本论文主要致力于在研究各种经典混沌系统混沌特性的同时,探究各混沌控制方法在存在时滞、脉冲
在上个世纪90年代,混沌同步应用于保密通信已经成为非线性动力学和信息科学界关注的一个研究热点,人们相继提出了多种混沌同步通信方案.但是,近来的研究表明,大多数的混沌通
该论文围绕数字图书馆中元数据互操作和服务互操作的研究方法而展开,着力于构造一个综合体现前述两类互操作特性的、联合式数字图书馆馆际互借原型系统.互联网上为数众多的数
Yannis Theodoridis等人定义的空间对象之间的方向关系,是目前人们采用比较多的一种方向关系。作者在深入的研究了这种方向关系后,发现这种方向关系的定义并不完善。主要是某
该课题是国家自然科学基金重点资助项目"新型高频中小功率逆变电源控制技术和拓扑技术"的一部分.该文侧重于虚拟监控系统的设计和研究.网络的发展使虚拟现实变得普通,而VRML(