论文部分内容阅读
语音通信在多媒体通信中有举足轻重的地位。而低速率语音编码更是凭借其占用更少的频带资源在安全保密通信等领域被广泛应用。然而,更低编码速率意味着包含更少的信息量,则编码质量会受其影响而降低。如何在低速率下保持高质量语音一直是语音研究者普遍研究的问题。深度学习技术推动传统神经网络向更深层复杂的深度神经网络衍变发展。近年来,深度学习在语音信号处理中显示出了巨大优势,特别是在语音识别、分离等方面有突出的表现。基于以上几点,本文提出两种基于深度学习的语音处理方法来提高低速率语音编码质量。语音帧类型的划分对语音编码质量影响较大,且传统方法分类准确率受背景噪声影响急剧下降。因此文章的研究重点之一是学习设计一种基于深度学习的语音分类算法来提高不同噪声环境中的分类准确率。栈自动编码机在分类问题中往往比其他模型表现更好。在语音分类实验中,在不同信噪比下提取基音周期、线谱频率、子带能量等参数。归一化处理后随机打乱顺序输入网络中,再逐层训练栈自动编码机。最后用有监督的标准反向传播方法实现整个网络微调达到较高的分类准确率。此实验中的监督信号均为纯净语音条件下提取的清浊分类标志位。语音信号带宽是影响语音编码质量的另一个重要因素。语音由于受压缩和通信信道影响带宽受限,重建传输语音的自然度会降低。因此,本文另一个研究是基于深度学习的带宽扩展方法,该方法通过提高语音自然度来提高语音质量。语音带宽扩展算法能够在编解码系统终端由前馈神经网络实现。首先将解码端恢复的信号进行快速傅立叶变换,然后提取窄带信号包络归一化处理后作为网络输入,而宽带信号的高频谱包络为监督信号。利用前馈神经网络非线性映射关系将窄带信号包络映射到高频部分。高频部分相位为低频相位翻折取反而来。整合高频部分相位和包络信息得到预测信号频谱。最后将预测信号进行傅立叶逆变换之后恢复到时域中与低频部分整合为宽带信号。为了评价语音分类和带宽扩展设计算法的有效性,进行了一系列相关测试。在语音清/浊帧分类中,所提算法能够提高不同信噪比下的分类准确率,特别是信噪比越低时,提升效果越明显。将此算法应用于混合激励线性预测编码系统中,不同噪声条件下的分类准确率均有提高。在带宽扩展方面,谱失真对数用来衡量算法性能,其结果在扩展前后由2.2372dB降低到0.8883dB。实验结果表明了深度神经网络能够提高低速率语音编码质量,这暗示了深度学习在语音压缩和处理方面有巨大的潜力。