基于深度神经网络的说话人识别建模方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:milai8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度神经网络取代传统的高斯混合模型,在连续语音识别领域已经取得了巨大成功,而传统的说话人识别建模方法仍以产生式模型为主导。不同于语音识别问题可以事先确定其音子集合,说话人识别问题由于其本身类别的不确定性,使得深度神经网络这一强大的区分度模型难以直接用于说话人分类。本文将深度神经网络引入到说话人识别的建模框架中,在i-vector建模层面和统计量提取层面分别进行了探索。同时,针对深度神经网络的巨大参数量和实际应用中海量的语音数据,本文还对深度神经网络的训练加速问题进行了探究。本文的主要研究工作和创新点有:  1.在i-vector建模层面,采用说话人标签对带Bottleneck层的深度神经网络进行训练,提出了一种基于预训练神经网络的i-vector提取系统。与传统TVM模型相比,该系统在建模过程中加入说话人区分度信息,以提取更加有效的说话人特征。另一方面,由于说话人数据量的局限性,预训练在模型训练中尤其重要。实验表明,该系统提取的i-vector与传统TVM系统提取的i-vector性能相当,且具有一定互补性,两者融合后仍有10%的性能提升。  2.在统计量提取层面,提出了基于LSTM RNN的说话人统计量提取框架,并探究了不同信道条件下DNN/RNN说话人统计量提取框架的鲁棒性。该方法将神经网络的输出作为帧级后验概率,同时与相应帧的说话人特征共同形成该条语音的统计量信息。在文本无关的说话人识别任务上的实验表明,与无监督的GMM-UBM模型相比,深度神经网络产生的后验概率在通道失配情况下更加准确,进而取得了比GMM-UBM更准确的说话人识别结果。另外,在语音识别中有着更高帧准确率的LSTM RNN模型取得了比DNN和GMM更好的说话人识别结果。  3.首次将DNN/RNN说话人统计量提取建模框架应用到文本相关说话人识别任务,并探究了不同训练数据的DNN/RNN系统在三种不同的文本相关测试任务上的性能,由于文本相关说话人识别任务需要同时判定文本信息和说话人信息,采用语音识别准则训练的深度神经网络在文本信息判断上比GMM系统更加准确,实验结果表明,DNN/RNN系统在文本内容不匹配的测试情况下优势明显。  4.针对深度神经网络模型参数量大,传统随机梯度下降算法并行化困难的问题,提出了针对多GPU卡训练平台的异步随机梯度下降算法,该算法将各GPU卡作为一个客户端独立工作,与服务器端CPU分别进行数据和参数的交互,从而实现多卡计算的并行化。实验表明,异步随机梯度下降算法在保证模型识别性能的前提下取得了很好的加速效果。
其他文献
  本文首先研究了目前市场上使用最多的两种现场总线CAN与PROFIBUS总线的互联方法。在协议网关实现上,传统方法采用单CPU结构,本文提出了一种双CPU结构。  其次,分析了CAN和
风机是电厂重要的辅机设备,其运行状态直接关系到电厂的安全经济性。本文将虚拟仪器技术与人工神经网络技术相结合用于风机故障诊断,利用计算机网络从对设备进行远程监控的角度,进行了建立一个基于虚拟仪器技术LabVIEW的远程状态监测和故障诊断系统的尝试。 本文在电厂现有的监测系统基础上,提出合理的监测方案,利用LabVIEW强大的网络通信功能,将TCP/IP技术应用于风机监测方案中,从而实现设备的远
电子稳像技术是一种应用广泛的基础性视频增强技术,是随着硬件和软件技术飞速发展,而出现的一项新的稳像技术。随着软件技术的广泛应用和电子设备小型化进程的推进,电子稳像
随着社会的发展,控制科学、信息科学和人工智能与认知科学等新兴学科的结合对处理复杂系统和社会经济中的一些重大课题提供了有价值的科学理论和方法。如何利用新兴理论和技术提升我国的工业化和现代化进程是每个科技工作者的目标和研究热点。针对我国以煤炭为主的能源消费结构,坚持实行优化节能的战略方针,提高能源利用效率是我国中、长期能源对策中的首要重点。 目前,电站发电机组中控制系统和信息管理系统得到了普及。
随着电力市场的逐步建立,供电质量变得日益重要,而供电质量的好坏通常要通过配电变压器的运行状态进行实时监控,因此配变监控水平也是衡量配电自动化水平的一个主要标准之一。随
本文以DOP企业酯化反应装置的苯酐转化率为研究背景,对神经网络的软测量建模方法及其在装置中的实施方案进行了研究。 文章在分析了传统BP神经网络基础上,提出了改进BP算法,
随着国民经济的发展,铁路运输起着越来越重要的作用。作为车辆重要部件的轮对在铁路安全运输中占据重要的地位。传统的轮对检测方法靠人工进行,其效率低,差错率高。目前,我们国家
随着计算机技术的发展,传统的人机交互技术已难以适应越来越复杂多样的需求。用户要求更加自然和智能的交互方法,包括声音、视觉和智能传感器等等。其中基于计算机视觉的方法具
学位
学位