基于神经网络的语音频带扩展方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:michellehb1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音频带扩展旨在从频带受限的窄带语音信号中恢复宽带语音信号。在当前的语音通信系统中,由于受到语音采集设备以及信道条件的限制,传输的语音信号的带宽往往小于4kHz。高频部分的缺失会导致语音音质下降、自然度受损等问题。因此语音频带扩展技术的研究具有重要的应用价值。传统基于统计声学模型的语音频带扩展方法采用高斯混合模型来描述低频声学特征到高频声学特征的映射关系,存在建模精度不足、重建高频频谱过平滑等问题。近年来,具有深层结构的神经网络模型在语音合成、说话人转换、语音增强等语音信号生成任务中得到了成功应用。神经网络相对传统高斯混合模型,对于特征间的非线性关系有着更好的建模能力。因此本文围绕基于神经网络的语音频带扩展方法开展研究工作,具体包括:首先,本文研究了基于深度神经网络的语音频带扩展方法。设计实现了多种面向频带扩展任务的深度神经网络预训练和训练策略,取得了相对传统高斯混合模型的主客观性能提升;进一步研究了频带扩展深度神经网络的多任务学习方法,将窄带语音的音素分类作为次要分类引入模型训练准则,增强了模型对于文本相关信息的提取与处理能力,提升了高频频谱特征的预测精度。其次,本文研究了基于循环神经网络的语音频带扩展方法。针对深度神经网络在时序建模能力上的不足,使用深层循环神经网络与长短时记忆单元对高低频声学特征序列间的相关性进行建模,取得了优于高斯混合模型和深度神经网络模型的频带扩展性能;进一步提出了结合深瓶颈特征的语音频带扩展方法,针对传统方法中仅针对声学信息进行建模而忽略文本信息的问题,在模型输入中加入了从窄带语音状态分类网络中提取的深瓶颈特征,进一步提升了频带扩展的性能。再次,本文提出了基于深层扩张卷积神经网络与波形建模的语音频带扩展方法。该方法融合了声学特征提取与转换步骤,采用深层扩张卷积神经网络直接在波形与采样点层面进行语音信号的建模与预测,相对使用帧级特征、参数合成器与循环神经网络建模的频带扩展方法,取得了更好的生成语音主观质量;在基于深层扩张卷积神经网络的波形建模框架下,进一步研究了深瓶颈特征等辅助信息的使用方法,以及模型存储量的优化方法。最后,本文研究了结合频带扩展的统计参数语音合成方法。针对语音合成系统输出语音质量受限于训练音库采样率的问题,提出了利用频带扩展技术和低采样率音库进行高采样率语音合成系统的构建;实验结果表明该方法可以取得与直接使用高采样率音库构建合成系统相当的合成语音质量。
其他文献
铁路运输节能是铁路运输行业的发展趋势,也是未来铁路运输企业发展的基本要求.本文通过对铁路运输过程中的各个环节进行叙述,从节能技术创新方面着手,对铁路运输节能发展对策
本文主要阐述了大数据时代的特点,同时提出了大数据时代数字出版产业的发展趋势,包括利用大数据技术来实现精准营销、利用大数据技术来完成个性化选题策划、利用大数据技术来
近年来,利用信号的统计特性提升波达方向(DOA)估计算法的性能已经成为阵列信号处理的一个重要研究领域。其中,非圆信号因在阵列孔径拓展和估计精度提升等方面的优异性能,更是
无线体域网是以人体为中心,由若干低功耗、微型、智能的节点和一个协调器组成的人体范围内的无线通信系统,它在多个领域都有重要应用,比如,医疗监控、运动检测等。无线体域网
随着计算机应用的普及与计算机网络的发展,即使在图像、视频和音频数据快速增长的同时,文本数据仍然是互联网上使用最多和最广的一种信息载体,这样就给电子文本的版权保护带来了
随着航天任务的复杂化和空间设施的完备化,空间数据通信系统对数据处理的需求越来越高,因此CCSDS在常规在轨系统(COS)的基础上开发了高级在轨系统(AOS),以满足传送信息的复杂
语种识别(Language Recognition,LR)作为语音信号处理领域中的一个重要研究分支,具体是指利用计算机对任意给定时长的语音片段进行一定的分析和处理,从而自动判别出未知语音
软件定义网络(SDN/OpenFlow)是一种新型的网络架构,将传统网络的封闭体系分离为数据平面和控制平面,具有良好的可控性和灵活性。SDN开始被引入到许多场景下的网络,其中包括广
随着机载座舱显示技术的高速发展,新一代的战斗机已经逐步采用综合视频图形显示系统来替代传统的指针式仪表显示系统。本文以某型机载视频处理及图形生成系统为研究对象,展开了
心血管疾病是威胁人类健康的疾病之一。近年来,心血管疾病的发病率逐渐上升,严重危及人们的生命安全。心血管疾病患者越来越多,越来越趋于年轻化。心血管疾病最严重的临床表