论文部分内容阅读
随着深度神经网络的发展和广泛应用,语音识别的准确率出现了阶跃式的增长。以深度神经网络为基础的CD-DNN-HMM框架取代了传统的以高斯混合模型为基础的GMM-HMM框架,成为语音识别系统的基本配置。语音识别性能的提升促进了语音识别技术在移动互联网终端设备上的普及和应用,同时更多的应用需求也加快了基于深度神经网络的语音识别技术发展。研究深度神经网络的特征提取技术和模型构建技术,可以提升基于深度神经网络的语音识别系统性能;而对基于深度神经网络的语音识别系统应用研究,则可以为语音识别技术走向更广泛的应用打下良好基础。本文的主要研究工作归纳如下: 1.提出了一种噪声鲁棒的语音特征PNPLP,为噪声环境下的语音识别提供了更好的解决方案。 本文针对噪声环境下的鲁棒语音识别问题,提出了一种基于PLP的改进语音特征提取方法。这种特征提取方法增加了基于中等时长的噪声抑制模块,能够减轻环境噪声对语音识别的影响。另外,通过修改听感曲线和归一化方法,该特征降低了噪声抑制模块对纯净语音识别带来的性能损失。实验证明,本文所提的特征提取方法在基于高斯混合模型和基于深度神经网络模型的语音识别系统中都表现出了良好的抗噪能力。针对深度神经网络的框架结构,本文对多种语音特征进行了对比,指出了滤波器组特征能够在深度神经网络中获取比传统特征更好的准确率。此外,本文对深度神经网络自身的特征提取能力进行了分析,为深度神经网络的进一步研究和应用奠定了基础。 2.提出了一种局部连接的深度神经网络模型,改善了噪声环境下基于深度神经网络的语音识别性能。 本文分析了频域范围内噪声对语音信号的影响,并根据深度神经网络的结构特点和特征提取能力,提出了局部连接的深度神经网络模型。该模型将底层的神经网络分为多个互不相连的单独结构,能够针对不同频带中的噪声进行单独的抑制;而高层的神经网络则是全连接,以获取全局的最优特征。实验证明,本文所提的局部连接深度神经网络模型有效提高了噪声环境下的语音识别性能。本文利用部分频带对含噪的语音进行识别,结论指出,将含噪通道作为丢失特征会损失语音识别性能。此外,本文还对鲁棒玻尔兹曼机进行了探索和研究,提出将其应用到语音识别中的设计方案。 3.建立了中英文混合语音识别系统,提出了音子集完全映射的方法,为多语言混合系统的快速搭建提供了解决方案。 本文对语音识别在应用中遇到的多语言混合识别问题进行了分析,并对多语言混合语音识别系统进行了调研。在此基础上,利用深度神经网络在多语言建模中的优势,搭建了中英文混合语音识别系统。该系统采用了三种不同的音子集构建方式,实现了中英文混合识别的目标。其中音子集完全映射的方法无需重新训练声学模型,能够实现多语言混合语音识别系统的快速搭建。此外,本文通过实验分析了不同音子集的构建方法以及数据集的分布对多语言混合语音识别系统性能的影响,为提高多语言混合语音识别系统的性能奠定基础。 4.提出了基于高斯混合模型和深度神经网络的双重检索框架,将深度神经网络应用到关键词检测系统中。 深度神经网络虽然给语音识别带来了性能的提升,但同时也增加了计算量,影响了识别的速度。因此,在系统速度要求高的关键词检测中,深度神经网络的处理速度无法满足任务需求。利用本文提出的基于高斯混合模型和深度神经网络模型的双重检索框架搭建的关键词检测系统,能够克服深度神经网络解码速度慢的缺陷。这种系统利用高斯混合模型建立索引,保证了建立索引的时间要求;利用深度神经网络对置信度高的语音片段进行重新检索,保证了系统的准确性。实验证明,本文所提出的双重检索框架既保证了关键词检测系统要求的响应时间,又提高了系统的性能。