基于深度学习提高低速率语音编码质量方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:susan6918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音通信在多媒体通信中有举足轻重的地位。而低速率语音编码更是凭借其占用更少的频带资源在安全保密通信等领域被广泛应用。然而,更低编码速率意味着包含更少的信息量,则编码质量会受其影响而降低。如何在低速率下保持高质量语音一直是语音研究者普遍研究的问题。深度学习技术推动传统神经网络向更深层复杂的深度神经网络衍变发展。近年来,深度学习在语音信号处理中显示出了巨大优势,特别是在语音识别、分离等方面有突出的表现。基于以上几点,本文提出两种基于深度学习的语音处理方法来提高低速率语音编码质量。语音帧类型的划分对语音编码质量影响较大,且传统方法分类准确率受背景噪声影响急剧下降。因此文章的研究重点之一是学习设计一种基于深度学习的语音分类算法来提高不同噪声环境中的分类准确率。栈自动编码机在分类问题中往往比其他模型表现更好。在语音分类实验中,在不同信噪比下提取基音周期、线谱频率、子带能量等参数。归一化处理后随机打乱顺序输入网络中,再逐层训练栈自动编码机。最后用有监督的标准反向传播方法实现整个网络微调达到较高的分类准确率。此实验中的监督信号均为纯净语音条件下提取的清浊分类标志位。语音信号带宽是影响语音编码质量的另一个重要因素。语音由于受压缩和通信信道影响带宽受限,重建传输语音的自然度会降低。因此,本文另一个研究是基于深度学习的带宽扩展方法,该方法通过提高语音自然度来提高语音质量。语音带宽扩展算法能够在编解码系统终端由前馈神经网络实现。首先将解码端恢复的信号进行快速傅立叶变换,然后提取窄带信号包络归一化处理后作为网络输入,而宽带信号的高频谱包络为监督信号。利用前馈神经网络非线性映射关系将窄带信号包络映射到高频部分。高频部分相位为低频相位翻折取反而来。整合高频部分相位和包络信息得到预测信号频谱。最后将预测信号进行傅立叶逆变换之后恢复到时域中与低频部分整合为宽带信号。为了评价语音分类和带宽扩展设计算法的有效性,进行了一系列相关测试。在语音清/浊帧分类中,所提算法能够提高不同信噪比下的分类准确率,特别是信噪比越低时,提升效果越明显。将此算法应用于混合激励线性预测编码系统中,不同噪声条件下的分类准确率均有提高。在带宽扩展方面,谱失真对数用来衡量算法性能,其结果在扩展前后由2.2372dB降低到0.8883dB。实验结果表明了深度神经网络能够提高低速率语音编码质量,这暗示了深度学习在语音压缩和处理方面有巨大的潜力。
其他文献
近年来,在国际油价不断走高的背景下,成品油零售市场的竞争越来越激烈,供需矛盾日益突出,供应断档、囤积不买的情况屡见不鲜。中国幅员辽阔,石油零售业务遍布全国,如此巨大的销售网
对世界领先的跨国公司的调查显示:企业声誉超过财务业绩成为衡量企业成功的重要指标.而另一项对欧洲、亚洲、北美洲首席执行官的调查显示:公司名誉是全球范围的首席执行官们越
医疗废物是指医疗卫生机构在医疗、预防、保健以及其他相关活动中产生的具有直接或者间接感染性、毒性以及其他危害性的废物。医疗废物具有极大的危险性,在国外被视为“顶级杀
目前,美术教学的内容和形式较多,如何让学生在美术学习过程中产生学习兴趣,主要取决于教师如何围绕教材,从学生的身边入手,把所学知识和生活相结合,让学生学得轻松、愉快,没
电力是我国市民生活中需要的必备能源,是国计民生的基础。因此,为了保障国家有良好的电力输送,减少因供电线路的损毁所带来的危险,就应加大对电力设备的检修和保养的监管,降
目的:配制儿科用地西泮直肠灌注剂,并对地西泮灌注剂的含量进行测定。方法:以适宜复合溶媒系统和工艺溶解主药,通过对制剂在各种条件下的稳定性考察进而确定处方,同时用高效液