DNN-HMM语音识别声学模型的说话人自适应

被引量 : 0次 | 上传用户：zzggwd

【摘要】

：

说话人自适应(Speaker Adaptation, SA)是语音识别中的关键技术,它利用少量自适应数据通过变换语音特征或修正声学模型来提高特定说话人的识别准确率。在传统基于高斯混合模

【作者】

：

薛少飞

【发表日期】

：

2015年期

【关键词】

：

语音识别深度神经网络说话人自适应 DNN快速训练说话人编码总变化因子向量区分性训练奇异值分解

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

说话人自适应(Speaker Adaptation, SA)是语音识别中的关键技术,它利用少量自适应数据通过变换语音特征或修正声学模型来提高特定说话人的识别准确率。在传统基于高斯混合模型-隐马尔科夫模型(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)的语音识别中,说话人自适应通常可以使识别错误率降低5%-30%,是提升系统性能的重要方法。近年来,随着深度神经网络(Deep Neural Network, DNN)被广泛应用于语音识别,DNN-HMM逐渐成为声学模型的主流配置。然而传统说话人自适应技术通常不能直接应用于该模型,而现有基于DNN-HMM的说话人自适应技术性能提升又不明显,研究适合DNN-HMM的说话人自适应方法成为了语音识别领域新的热点和难点。本文围绕在]DNN-HMM上实现快速、有效的说话人自适应,研究了基于多GPU的DNN快速训练和几种基于DNN的说话人自适应方法。具体如下：首先,本文研究了基于多GPU加速DNN训练的若干技术途径,及一些优化DNN训练的方法。我们分析了DNN训练过程中用到的相关算法,将训练步骤分解成适合GPU并行处理的矩阵运算形式,并利用CUDA C高效实现了这些算法,在此基础上我们进一步提出权重逐次轮转以及分-合训练融合方法来在多GPU上加速DNN训练并取得了显著的效果。在TIMIT数据集上进行的音素识别验证实验表明,在基本保证识别准确率的前提下,优化后的DNN训练速度获得了明显提升。这为我们在大规模数据上进行基于DNN-HMM的说话人自适应相关研究奠定了基础。而后,本文对基于说话人编码的特征域自适应方法进行了改进,提出一种基于说话人编码的模型域自适应方法。该方法克服了前者会引入规模较大的自适应变换网络的缺点,引入的额外参数较少,并且在层数较深,隐层节点较多的网络上可以取得显著优于前者的性能提升。我们还将总变化因子向量(i-Vector)技术引入该模型中,提出i-Vector表征说话人特性的编码方法,进一步改善了我们的自适应效果。相关实验表明我们提出的方法可以带来明显的识别准确率提升,是进行DNN-HMM声学模型说话人自适应的良好选择。之后,本文将区分性训练准则引入到说话人自适应中,提出基于说话人编码的区分性自适应方法,提高了识别准确率。我们还基于联合训练的思想提出一种说话人相关DNN的区分性建模方法,进一步改善了系统性能,在Switchboard数据集上的实验表明相较于DNN基线系统,该方法最多可以使识别错误率降低约25%,是目前最有效的]DNN-HMM声学模型说话人自适应方法之一。最后,本文将矩阵分解思想应用于说话人自适应,提出一种基于奇异值分解(Singular Value Decomposition, SVD)的说话人自适应方法,该方法利用SVD分解DNN权重,并使用奇异值表征说话人差异信息,这减少了进行说话人自适应时所需要更新的参数量,有效的减轻了过拟合问题,取得了良好的自适应效果。我们还融合了说话人编码和矩阵分解的思想,提出一种基于二者融合的自适应方法,相关实验表明该方法可以有效的减小说话人编码的维度和整个建模过程的计算复杂度,对于提升自适应效率具有重要意义。

其他文献

我国十年来的伦理学

<正> 从党的十一届三中全会以来,伦理学界和整个学术界一样,解放思想,开展争鸣,重新学习和研究马克思主义,探讨社会主义建设和改革中的伦理、道德问题,使学术思想有较大的发

期刊

伦理学分支学科社会主义初级阶段职业道德建设

新时代习近平生态文明建设思想研究

人类自从进入工业社会以来,生产力得到了极大的提高,物质资料得到了极大的丰富。但是,人类为了满足社会的发展,无限度的攫取自然资源,在取得一定物质财富的同时也破坏了自然

学位

新时代习近平生态文明美丽中国

安徽“政-校-园”三位一体办园模式改革——以合肥幼教集团为例

新时代人民对优质学前教育资源的需求日益迫切,必须不断推进幼儿园办园模式的改革。在充分吸收借鉴国内外幼儿园办园模式优点的基础上,依托高校智力支持,由政府购买服务,积极

期刊

“政—校—园”办园模式管办分离自主办园

试论拱板屋盖房式仓建筑防水防潮构造处理

拱板屋盖房式仓建筑是粮食储存仓库建设的常用结构设计形式,其中建筑防水防潮构造处理是建筑工程设计的重要环节。粮仓建筑对防水防潮处理质量要求较高,若是建筑结构渗漏、潮

期刊

拱板屋盖房式仓建筑设计防水防潮构造处理

角膜前表面的波前像差及其相关因素研究

目的：探讨准分子激光手术矫正近视患者的角膜前表面波前像差及其相关影响因素。方法：选择2014年5月至2015年4月在本院眼科行准分子激光手术矫正近视的59位患者的69只眼睛,矫正

学位

角膜角膜前表面波前像差相关因素

国家海洋博物馆钢结构安装方案分析

本文介绍了位于天津市滨海新区的国家海洋博物馆的主体钢结构施工方案。通过对建立的海洋博物馆有限元模型的分析,来分析该工程主体钢结构的安装全过程,从而对实际施工起到指

期刊

钢结构安装方案施工过程

新媒体环境下高校播音主持专业人才培养模式探究

在媒介融合的背景下,高校播音主持专业人才培养模式面临着创新和调整,如何培养适应新媒体环境的高素质传媒人才,成为各高校教学工作的重点。本文结合新媒体发展特征,分析了当

期刊

播音主持教育人才培养教学模式

基于中国社交媒体平台的品牌传播研究

互联网时代来临,品牌传播固有的模式发生了改变,而基于互联网社交媒体的品牌传播则是互联网时代品牌传播的重要一环,本文探讨的是互联网环境下,将互联网社交媒体平台作为传播

学位

社交媒体品牌传播小米策略

大型疏浚吹填项目工程特点

文章比较分析了近年来进行的香港赤腊角(Chek Lap Kok)机场工程、马来西亚的丹戎帕拉帕斯港工程(Tanjung Pelepas)、新加坡的裕廊岛工程(Jurong Island)、大士景工程(Tuas Vi

期刊

疏浚吹填大型挖泥船回填量工程特点

胰岛素样生长因子2基因干扰对人膀胱癌细胞HTB-95637细胞周期和增殖的影响

目的:探讨胰岛素样生长因子2(insulinlike growth factor 2,IGF2)基因干扰对人膀胱癌细胞株HTB-95637细胞周期和增殖的影响。方法:以人膀胱癌细胞株HTB-95637为研究对象,针对

期刊

膀胱癌胰岛素样生长因子2小干扰RNA细胞增殖细胞周期

DNN-HMM语音识别声学模型的说话人自适应

与本文相关的学术论文