基于深度神经网络的语音识别技术及应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:labidax
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度神经网络的发展和广泛应用,语音识别的准确率出现了阶跃式的增长。以深度神经网络为基础的CD-DNN-HMM框架取代了传统的以高斯混合模型为基础的GMM-HMM框架,成为语音识别系统的基本配置。语音识别性能的提升促进了语音识别技术在移动互联网终端设备上的普及和应用,同时更多的应用需求也加快了基于深度神经网络的语音识别技术发展。研究深度神经网络的特征提取技术和模型构建技术,可以提升基于深度神经网络的语音识别系统性能;而对基于深度神经网络的语音识别系统应用研究,则可以为语音识别技术走向更广泛的应用打下良好基础。本文的主要研究工作归纳如下:  1.提出了一种噪声鲁棒的语音特征PNPLP,为噪声环境下的语音识别提供了更好的解决方案。  本文针对噪声环境下的鲁棒语音识别问题,提出了一种基于PLP的改进语音特征提取方法。这种特征提取方法增加了基于中等时长的噪声抑制模块,能够减轻环境噪声对语音识别的影响。另外,通过修改听感曲线和归一化方法,该特征降低了噪声抑制模块对纯净语音识别带来的性能损失。实验证明,本文所提的特征提取方法在基于高斯混合模型和基于深度神经网络模型的语音识别系统中都表现出了良好的抗噪能力。针对深度神经网络的框架结构,本文对多种语音特征进行了对比,指出了滤波器组特征能够在深度神经网络中获取比传统特征更好的准确率。此外,本文对深度神经网络自身的特征提取能力进行了分析,为深度神经网络的进一步研究和应用奠定了基础。  2.提出了一种局部连接的深度神经网络模型,改善了噪声环境下基于深度神经网络的语音识别性能。  本文分析了频域范围内噪声对语音信号的影响,并根据深度神经网络的结构特点和特征提取能力,提出了局部连接的深度神经网络模型。该模型将底层的神经网络分为多个互不相连的单独结构,能够针对不同频带中的噪声进行单独的抑制;而高层的神经网络则是全连接,以获取全局的最优特征。实验证明,本文所提的局部连接深度神经网络模型有效提高了噪声环境下的语音识别性能。本文利用部分频带对含噪的语音进行识别,结论指出,将含噪通道作为丢失特征会损失语音识别性能。此外,本文还对鲁棒玻尔兹曼机进行了探索和研究,提出将其应用到语音识别中的设计方案。  3.建立了中英文混合语音识别系统,提出了音子集完全映射的方法,为多语言混合系统的快速搭建提供了解决方案。  本文对语音识别在应用中遇到的多语言混合识别问题进行了分析,并对多语言混合语音识别系统进行了调研。在此基础上,利用深度神经网络在多语言建模中的优势,搭建了中英文混合语音识别系统。该系统采用了三种不同的音子集构建方式,实现了中英文混合识别的目标。其中音子集完全映射的方法无需重新训练声学模型,能够实现多语言混合语音识别系统的快速搭建。此外,本文通过实验分析了不同音子集的构建方法以及数据集的分布对多语言混合语音识别系统性能的影响,为提高多语言混合语音识别系统的性能奠定基础。  4.提出了基于高斯混合模型和深度神经网络的双重检索框架,将深度神经网络应用到关键词检测系统中。  深度神经网络虽然给语音识别带来了性能的提升,但同时也增加了计算量,影响了识别的速度。因此,在系统速度要求高的关键词检测中,深度神经网络的处理速度无法满足任务需求。利用本文提出的基于高斯混合模型和深度神经网络模型的双重检索框架搭建的关键词检测系统,能够克服深度神经网络解码速度慢的缺陷。这种系统利用高斯混合模型建立索引,保证了建立索引的时间要求;利用深度神经网络对置信度高的语音片段进行重新检索,保证了系统的准确性。实验证明,本文所提出的双重检索框架既保证了关键词检测系统要求的响应时间,又提高了系统的性能。
其他文献
人工智能的最终目标是使机器具有创造性,而从人类创造性思维过程中提取创造性思维模型而用于人工系统是一种基本的方法.李德华教授是提出的可能性构人间理论PCST正是用这种方
选矿生产过程具有非线性、多变量、时变性、大滞后、强耦合的特点,且一般难以建立精确的数学模型。此外,由于生产过程工况条件和技术指标多变,因此需要动态调整优化策略和优
随着我国工业自动化水平的不断提高和发展,对操作人员、现场技术人员和管理人员的要求越来越高。在这种新形势下,新的计算机仿真技术应运而生,利用微机开发系统仿真支撑软件已成
该文在借鉴国内外集散系统软件的基础上,开发出一套低成本小型集散系统上位机软件并给出了开发低成本小型集散系统软件的整体设计思路及编程技巧.文中第一部分介绍了集散系统
该论文主要定级估价GIS的化着手,主要采用的结构模式是B/S/S模式,用户只要在客户二个通用有浏览器就能通过网络对土地定级估价GIS进行操作,这样同时也实现了土地信息的网络发
涡街流量计在近年来取得了长足的发展,一跃而成为十大流量计之一。但是在获得广泛应用的同时,涡街流量计在工业现场也遇到了一些问题,如电磁干扰、流场干扰及振动干扰等。为了解决涡街流量计在现场应用中所暴露出的问题,科技工作者做了许多努力。迄今为止,漩涡发生体的性能已经比较稳定,人们便把更多的注意力投向了新型涡频检测方法的采用和后续信号处理电路的改进上,电磁涡街流量计的研究与开发就是这方面的探索和努力之一。
该文在对梁清初步开发成功的多变量预测控制软件的基础上,针对其存在的问题,继续完成了软件的后期开发工作.通过对当前所出现的几种预测控制算法的仿真比较研究,选取了具有代
该文中,作者主要从技术上的角度来讨论控制系统的集成问题.不仅提出了用于控制系统集成的理论框架,而且详细地进行了控制系统集成方法的研究.首先分析了物理集成与软集成各自
在航天技术日益发展的当今时代,对具有挠性结构的航天器的动力学与控制的研究是航天领域的重要课题.该文讨论的是带有多挠性附件振怀液体晃动的多挠性充液卫星的控制问题,该
对多焦炉集气管压力系统进行等效机理分析和控制逻辑分析,可知此系统是一个多变量耦合、非线性、时变系统.实际现场和大量资料表明仅仅采用传统的单回路PID调 节效果不理想,