深度神经网络的说话人自适应技术研究

来源 :解放军信息工程大学 | 被引量 : 0次 | 上传用户：a4253272566

【摘要】

：

随着深度神经网络在大词汇连续语音识别中的应用越来越广泛,基于深度神经网络架构的语音识别系统也逐渐成为人们研究的重点与热点。与传统的高斯混合模型-隐马尔可夫模型(Gau

【作者】

：

梁玉龙

【出处】

：

解放军信息工程大学

【发表日期】

：

2017年01期

【关键词】

：

深度神经网络说话人自适应矩阵分解 i-vector 说话人感知训

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着深度神经网络在大词汇连续语音识别中的应用越来越广泛,基于深度神经网络架构的语音识别系统也逐渐成为人们研究的重点与热点。与传统的高斯混合模型-隐马尔可夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM)相似,在深度神经网络框架下也同样存在着训练数据和测试数据之间的不匹配问题。说话人自适应技术能够利用说话人信息对神经网络参数调整,有效的改善这种不匹配问题。本文研究如何运用说话人信息提出更为合理且实用的自适应技术,主要内容如下:针对bottleneck tandem系统中说话人自适应方法应用时,由于瓶颈层的存在,导致系统性能欠佳,本文提出一种结合半非负矩阵分解(Semi Non-negative Matrix Factorization,SNMF)及i-vector的说话人自适应方法。该方法有两种实现方式:第一种是利用i-vector进行说话人感知训练,然后利用SNMF算法对权值矩阵某一层做分解,并提取相关特征;第二种首先训练一个说话人无关的神经网络,其次利用i-vector训练自适应网络,接着调整说话人无关神经网络参数,最后利用SNMF算法对权值矩阵做分解并提取特征。最后利用该特征进行识别。在语料较充足的WSJ语料库以及语料数据量较少的捷克语语料库的语音识别任务中,该方法均能够使系统的识别性能进一步的提升。针对基于i-vector的说话人自适应方法在实现过程中,i-vector的提取用到了梅尔频率倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)特征,由于该特征鲁棒性相对较差,提出一种改进i-vector的说话人自适应方法。该方法通过引入基于奇异值矩阵分解算法的低维特征提取方法,将i-vector提取过程中用到的特征用该方法提取的鲁棒性更强的低维特征替换,以提取表征能力更优的i-vector,使基于改进i-vector的说话人自适应方法的语音识别系统的识别性能得到改善。在捷克语语料库以及WSJ语料库中的语音识别实验表明,该方法相对于没有使用说话人自适应方法的深度神经网络语音识别系统的性能有明显的改善,且相对于传统的基于i-vector的说话人自适应方法的深度神经网络语音识别系统的性能也有一定的改善。针对说话人感知训练算法中的说话人信息选择的问题,本文引入一种新的说话人信息——说话人嵌入特征,该特征较i-vector能够很好的处理短的语音片段,基于此特征提出一种基于说话人嵌入特征的说话人自适应方法。该方法首先利用一阶统计量以及说话人标签训练深度神经网络(Deep Neural Network,DNN)模型并提取说话人嵌入特征,然后利用该特征和原始输入特征拼接后的特征进行说话人自适应。timit语料库的语音识别任务实验表明,该方法能够改善DNN-HMM语音识别系统的性能。

其他文献

基于GPU的JPEG2000高速数据处理系统研究

目前基于IBM刀片集群的解决方案,功耗体积较大,效率较低,不适应星载以及小型化应用的发展。基于Tilera众核平台的开发周期较长,成本较高。JPEG2000标准是在原有的JPEG标准的

学位

GPUJPEG2000T1T2并行高速解码

快速自动精确识别EBSD花样中的菊池带

电子背散射衍射(EBSD)已成为扫描电子显微镜(SEM)的标准配置附件。借助EBSD技术获得的菊池花样,SEM可以进行相鉴定、晶体取向以及织构分析。现有的这些应用在技术上是成熟的,其算法主要是基于Hough变换识别EBSD花样的菊池带。由于Hough变换不能直接识别双曲线,由传统的Hough变换获得的菊池带信息是不准确的,这给EBSD花样解析未知晶体的Bravais点阵造成致命影响。为此本论文主要

学位

EBSDHough变换并行计算图像识别

马链球菌马亚种SrtA两种不同突变体的表达及免疫效果的比较

马腺疫作为一种急性接触性传染病,可引起马属动物颌下淋巴结肿胀,严重时可致死,该病给世界各地养马产业造成严重的经济损失。马腺疫主要由马链球菌马亚种(Streptococcus equi

学位

马腺疫SrtA突变体表达病理组织观察免疫效果比较分析

基于排名的云服务推荐的研究与优化

在互联网技术广泛应用于各行各业的今天,我们迎来了云计算的迅速发展。它提供了一种新型的商业计算模型和服务模式,可以将计算、存储、网络和应用等等汇集到一起,用户只要按

学位

云计算基于排名云服务推荐量化服务偏好高响应比优先

枳术丸合双合汤加减治疗糖尿病周围神经病变临床疗效观察

目的:观察枳术丸合双合汤加减治疗脾虚瘀阻型糖尿病周围神经病变的临床疗效。方法:本研究采取随机对照的研究方法,将符合诊断标准的60例DPN患者,随机分为对照组和治疗组,每组30例。在糖尿病教育、饮食指导、调控血糖、血脂、血压等基础上,对照组给予甲钴胺片口服,治疗组予以枳术丸合双合汤加减进行治疗。两组服药疗程均为8周。疗程结束后,观察治疗前后两组患者在中医证候积分、神经传导速度、Toronto评分等有

学位

枳术丸双合汤糖尿病周围神经病变临床观察

基于无线网的视频目标跟踪技术研究

伴随着社会需求的增加以及视频处理等技术的发展,新一代视频监控系统能够实现网络高清视频的实时传输,并在现实中得到越来越广泛的应用;而目标跟踪算法作为计算机视觉领域的

学位

视频监控目标跟踪压缩编码核相关滤波器

基于Android的App恶意行为分析与研究

Android操作系统在当今的市场上有着很高的占有率,用户对于Android手机的使用量已经越来越大。但是,Android手机上的恶意App的数量也在逐渐增加,对于使用Android设备的用户造

学位

Android恶意行为模式匹配算法有穷自动机有序二叉树

一种社会文本流的分类算法研究

随着网络技术和移动客户端技术的不断完善和发展,人们每时每刻都在产生、共享和传递数据,其中很大一部分是以文本形式存在的。如何从文本数据中高效的提炼有用的信息和模式已

学位

社会文本流文本分类LDA模型L-LDA模型

长沙县农村土地整治问题及对策研究

农村土地整治作为保障国家粮食安全和土地资源的手段,承担着“稳增长、调结构、促改革、惠民生”的根本责任。根据党的十九大报告,必须大力实施乡村振兴战略,大力推进我国农村现代化的进程。作为七大战略之一,农业农村问题已经成为农村地区面临的突出问题。作为促进我国农业和农村发展现代化的手段,农村土地整治不仅是保障乡村振兴战略成功实施的关键,同时也是扩大内需、促进经济水平增长、有效化解产能过剩从而深入推进供给侧

学位

土地整治农村长沙县

基于密度的局部嵌入降维算法研究

随着科技的飞速发展,大数据和云计算的时代的到来,数据集的出现形式越来越趋于海量数据、高维数据、非线性数据,故而数据降维这个古老而又新型的数据处理方式发挥着不可替代

学位

流形学习数据降维非线性数据局部嵌入算法自适应选取参数

深度神经网络的说话人自适应技术研究

与本文相关的学术论文