深度神经网络的说话人自适应技术研究

来源 :解放军信息工程大学 | 被引量 : 0次 | 上传用户:a4253272566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度神经网络在大词汇连续语音识别中的应用越来越广泛,基于深度神经网络架构的语音识别系统也逐渐成为人们研究的重点与热点。与传统的高斯混合模型-隐马尔可夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM)相似,在深度神经网络框架下也同样存在着训练数据和测试数据之间的不匹配问题。说话人自适应技术能够利用说话人信息对神经网络参数调整,有效的改善这种不匹配问题。本文研究如何运用说话人信息提出更为合理且实用的自适应技术,主要内容如下:针对bottleneck tandem系统中说话人自适应方法应用时,由于瓶颈层的存在,导致系统性能欠佳,本文提出一种结合半非负矩阵分解(Semi Non-negative Matrix Factorization,SNMF)及i-vector的说话人自适应方法。该方法有两种实现方式:第一种是利用i-vector进行说话人感知训练,然后利用SNMF算法对权值矩阵某一层做分解,并提取相关特征;第二种首先训练一个说话人无关的神经网络,其次利用i-vector训练自适应网络,接着调整说话人无关神经网络参数,最后利用SNMF算法对权值矩阵做分解并提取特征。最后利用该特征进行识别。在语料较充足的WSJ语料库以及语料数据量较少的捷克语语料库的语音识别任务中,该方法均能够使系统的识别性能进一步的提升。针对基于i-vector的说话人自适应方法在实现过程中,i-vector的提取用到了梅尔频率倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)特征,由于该特征鲁棒性相对较差,提出一种改进i-vector的说话人自适应方法。该方法通过引入基于奇异值矩阵分解算法的低维特征提取方法,将i-vector提取过程中用到的特征用该方法提取的鲁棒性更强的低维特征替换,以提取表征能力更优的i-vector,使基于改进i-vector的说话人自适应方法的语音识别系统的识别性能得到改善。在捷克语语料库以及WSJ语料库中的语音识别实验表明,该方法相对于没有使用说话人自适应方法的深度神经网络语音识别系统的性能有明显的改善,且相对于传统的基于i-vector的说话人自适应方法的深度神经网络语音识别系统的性能也有一定的改善。针对说话人感知训练算法中的说话人信息选择的问题,本文引入一种新的说话人信息——说话人嵌入特征,该特征较i-vector能够很好的处理短的语音片段,基于此特征提出一种基于说话人嵌入特征的说话人自适应方法。该方法首先利用一阶统计量以及说话人标签训练深度神经网络(Deep Neural Network,DNN)模型并提取说话人嵌入特征,然后利用该特征和原始输入特征拼接后的特征进行说话人自适应。timit语料库的语音识别任务实验表明,该方法能够改善DNN-HMM语音识别系统的性能。
其他文献
目前基于IBM刀片集群的解决方案,功耗体积较大,效率较低,不适应星载以及小型化应用的发展。基于Tilera众核平台的开发周期较长,成本较高。JPEG2000标准是在原有的JPEG标准的
电子背散射衍射(EBSD)已成为扫描电子显微镜(SEM)的标准配置附件。借助EBSD技术获得的菊池花样,SEM可以进行相鉴定、晶体取向以及织构分析。现有的这些应用在技术上是成熟的,其算法主要是基于Hough变换识别EBSD花样的菊池带。由于Hough变换不能直接识别双曲线,由传统的Hough变换获得的菊池带信息是不准确的,这给EBSD花样解析未知晶体的Bravais点阵造成致命影响。为此本论文主要
马腺疫作为一种急性接触性传染病,可引起马属动物颌下淋巴结肿胀,严重时可致死,该病给世界各地养马产业造成严重的经济损失。马腺疫主要由马链球菌马亚种(Streptococcus equi
在互联网技术广泛应用于各行各业的今天,我们迎来了云计算的迅速发展。它提供了一种新型的商业计算模型和服务模式,可以将计算、存储、网络和应用等等汇集到一起,用户只要按
目的:观察枳术丸合双合汤加减治疗脾虚瘀阻型糖尿病周围神经病变的临床疗效。方法:本研究采取随机对照的研究方法,将符合诊断标准的60例DPN患者,随机分为对照组和治疗组,每组30例。在糖尿病教育、饮食指导、调控血糖、血脂、血压等基础上,对照组给予甲钴胺片口服,治疗组予以枳术丸合双合汤加减进行治疗。两组服药疗程均为8周。疗程结束后,观察治疗前后两组患者在中医证候积分、神经传导速度、Toronto评分等有
伴随着社会需求的增加以及视频处理等技术的发展,新一代视频监控系统能够实现网络高清视频的实时传输,并在现实中得到越来越广泛的应用;而目标跟踪算法作为计算机视觉领域的
Android操作系统在当今的市场上有着很高的占有率,用户对于Android手机的使用量已经越来越大。但是,Android手机上的恶意App的数量也在逐渐增加,对于使用Android设备的用户造
随着网络技术和移动客户端技术的不断完善和发展,人们每时每刻都在产生、共享和传递数据,其中很大一部分是以文本形式存在的。如何从文本数据中高效的提炼有用的信息和模式已
农村土地整治作为保障国家粮食安全和土地资源的手段,承担着“稳增长、调结构、促改革、惠民生”的根本责任。根据党的十九大报告,必须大力实施乡村振兴战略,大力推进我国农村现代化的进程。作为七大战略之一,农业农村问题已经成为农村地区面临的突出问题。作为促进我国农业和农村发展现代化的手段,农村土地整治不仅是保障乡村振兴战略成功实施的关键,同时也是扩大内需、促进经济水平增长、有效化解产能过剩从而深入推进供给侧
随着科技的飞速发展,大数据和云计算的时代的到来,数据集的出现形式越来越趋于海量数据、高维数据、非线性数据,故而数据降维这个古老而又新型的数据处理方式发挥着不可替代