基于深度神经网络的大词汇连续语音识别技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：hblhzl_18

【摘要】

：

声学模型是语音识别系统的核心模块，它直接影响系统的最终识别性能。传统的声学模型建模技术一般基于隐马尔可夫模型(Hidden Markov Model，HMM)框架，采用混合高斯模型(Gaussian

【作者】

：

肖业鸣

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2014年期

【关键词】

：

大词汇连续语音识别声学模型深度神经网络自适应概率平滑

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

声学模型是语音识别系统的核心模块，它直接影响系统的最终识别性能。传统的声学模型建模技术一般基于隐马尔可夫模型(Hidden Markov Model，HMM)框架，采用混合高斯模型(Gaussian Mixture Model，GMM)来描述语音特征的概率空间分布。然而，受限于一些不合理的假设，基于GMM的声学建模在自然口语语音识别任务上的字错误率仍比较高。近年来，基于深度神经网络(Deep Neural Network，DNN)的声学模型建模技术在语音识别领域取得了突破性的进展，相对于经鉴别性训练的GMM，能获得字错误率相对下降20％左右的性能提升。本文基于HMM-DNN的声学模型建模技术，在面向电话交谈语音识别(Conversational Telephone Speech，CTS)的任务上开展了一系列研究，主要工作内容及创新点如下:　　1.搭建了基于HMM-DNN的面向电话交谈语音识别系统，实现了DNN的基本训练算法，如用于预训练(Pre-training)的受限玻尔兹曼机，用于微调(Fine-tuning)的误差反向传播算法(Error Back-Propagation，EBP)。实现了基于DNN的解码器，相对经最小音素错误(Minimum Phone Error，MPE)准则训练的GMM模型，在多个测试集上取得了一致的性能改善，平均字错误率相对下降14.1％。　　2.针对CTS任务上的识别结果性能比较差的问题，分析了其可能导致的原因。根据DNN本身所固有的特点，从特征层面、DNN模型结构、训练时元参数调节以及模型泛化能力等方面展开了一系列的优化工作。针对训练数据中各状态的训练样本分布不均的情况，提出了一种先验概率平滑算法，有效地缓解了由于数据稀疏导致的性能下降问题。最终，经过优化的DNN模型相对于基线DNN模型在三个测试集上取得了平均字错误率相对下降15.6％的性能提升。　　3.语音识别系统在声学模型和实际待识别语音之间存在不匹配时会导致性能急剧下降。为了减少这种不匹配所造成的影响，本文研究了基于DNN的声学模型自适应技术。在电话客服语音识别任务上，采用有监督自适应算法使得字错误率相对下降10％以上。此外，提出了一种基于后验概率“自举”的无监督声学模型自适应方法，能够有效地对这些无标注语音进行利用，改善系统性能。　　4.与DNN所获得的性能提升相伴的是模型参数量的剧增。DNN的参数量一般是GMM模型的210倍左右，导致实时解码成为了DNN实用化的瓶颈。本文对影响解码器速度的各个模块进行独立分析，分别加以优化。对于后验概率估计模块，采用奇异值分解减少模型参数量，采用SSE指令集和浮点转定点运算来加快运算速度。对于维特比搜索模块，结合语音信号短时平稳的特性，采用跳帧计算来降低计算量。最终，在识别精度损失可以忽略的前提下，基于DNN的解码器在优化后实时率降从6.1倍实时显著降低到0.31倍实时，基本上满足了应用需求。

其他文献

藝鉴——书画名家

画家简介崔修闻,本名崔建立,字一然,号博翁,1974年生于山东高青,佛历2551年于北京法源寺皈依佛门,法名传立。先后毕业于山东师范大学美术系、修业于北京荣宝斋画院首届中国书

期刊

边平山学术展览本名书画名家艺术机构中国美术传立入室弟子书画创作高级研修班

在车辆监控中应用基于DSP的车牌识别的研究

车辆监控系统是智能交通系统的重要组成部分，而车牌自动识别技术是实现车辆监控的一种重要途径。目前，此类监控技术已用于路桥电子收费系统中实现半自动收费，这种收费方式比较适

学位

车辆监控车牌识别图象处理DSP

GPS/GSM车辆监控中心的设计和实现

该文从分析监控系统的组成入手,详细讨论了GPS/GSM监控系统的优越性,通过与休群通信系统、卫星通信系统、CDPD、TETRA等常用监控通信手段的比较,可以看出GSM作为监控数据无线

学位

全球移动通信系统(GSM)全球定位系统(GPS)车辆监控中心

移动通信信道分形模型及CDMA系统中信道估计问题的研究

该文将分形理论应用于多径衰落信号的研究,提出了新的途径和方法.RAKE接收机是CDMA系统实现分集接收,抗多径衰落的核心部件,信道估计对其性能有很大影响.该文研究了导频信号

学位

多径衰落信道模型分形理论信道估计码分多址移动通信

基于友好干扰与中继的无线自组织网络安全区域研究

无线自组织网络是当今通信领域中的一项重要技术，被广泛应用于军事、救灾、探险等领域。无线自组织网络缺乏起中心作用的基础设施，且网络拓扑极易变化。由于军用通信信息的敏感

学位

无线自组织网络通信安全仿真模型友好干扰功率分配策略中继策略

机载合成孔径雷达成像研究

该文详细分析了SAR成像以及阵列脉冲多普勒雷达信号处理.在此基础上建立了基于长相干时间的多通道SAR地杂波模型.指出了多通道SAR地杂波与一般机载AEW雷达地杂波的主要区别在

学位

合成孔径雷达空时二维自适应处理二维谐波恢复算法二维四阶累积量

二值文本图象数字水印技术的研究

数字水印技术在近几年取得了飞速发展,特别是一些用于静止图象的水印技术取得了重要的进展.但是二值文本图像是一种特殊图象,那些用于静图象的水印方案是不适合二值文本图象

学位

二值图象文本图象数字水印图象处理

基于软件无线电的突发多速率通信技术研究

软件无线电这一在军事通信领域诞生的新概念不仅被应用于军事通信领域，在民用无线电领域也获得了广泛地应用，甚至推广到了所有无线电系统。本文将软件无线电技术应用于突发多速

学位

突发多速率接收机结构设计软件无线电技术

光码分多址网络及其语音接入系统的研究

作为全光网重要实现手段的光码分多址(OCDMA)技术,经过十几年的发展,已取得了很大的发展.该文对OCDMA全光接入网和高速局域网进行了较为深入的研究,完成了实时语音信号接入OC

学位

全光网光码分多址局域网接入网IPoverOCDMA语音接入多址干扰DSP

基于硅技术的毫米波单片集成频率信号源研究

硅技术以其低成本、高集成度等优势，在微波和毫米波系统中越来越受到关注和采用，逐渐取代化合物半导体的主导地位。本论文以毫米波高速无线通信为应用背景，对基于硅技术的毫米波

学位

毫米波单片集成频率信号源结构设计硅技术

基于深度神经网络的大词汇连续语音识别技术研究

与本文相关的学术论文