论文部分内容阅读
低速率语音编码技术的基本思路是识别语音与非语音信号并设计码本对两者进行压缩编码。现有的低速率语音编码算法侧重于对语音信号时空冗余度的挖掘,识别与压缩过程均忽略了人耳感知语音特点的考虑。目前,基于多帧联合技术的600bps~2.4kbps低速率语音编码器在高信噪比条件下已获得较好的性能,然而随着速率降低,在低信噪比环境下仍存在鲁棒性低、码本存储容量大、时延长等问题。鉴于以上考虑,论文把对语音信号的(主客观)感知因素纳入低速率语音编码器算法设计当中。首先,结合人耳对语音感知在频率上的差异对低信噪比下的鲁棒语音检测算法进行研究;其次,分别从人耳听觉对语音的主观感知和编码器对语音信号信息结构与内容的客观感知两个层面,重点研究设计更贴合语音信号信源空间的低复杂度码本。从识别与压缩两个角度进一步提高编码器的性能和稳定性。主要工作如下:1、针对编码器在低信噪比环境下语音检测准确率下降的问题,提出一种基于子带双特征的自适应保留似然比鲁棒语音检测算法。算法首先根据人耳对语音感知随频率的变化规律划分子带,然后在基于统计模型的似然比检验方法中引入保留权值,通过提取子带归一化双重特征,从时域的角度把具有明显语音特征的子带似然比保留下来参与综合评估,同时利用过去固定时长内的判决结果及相关子带特征参数自适应更新保留阈值。实验结果表明,与同类方法相比,在10dB,0dB和-10dB白噪声下检测准确率提高幅度分别为0.96%~15.91%,1.54%~17.96%和0.65%~11.44%,在10dB,0dB和-10d B Babble噪声下检测准确率提高幅度分别为2%~18.27%,2.9%~11.86%和0.18%~3.65%;方法同时被用于2.4kbps低速率语音编码器,在10dB,0dB和-10dB Babble噪声下,语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)值分别提高了0.159,0.157和0.186;在10dB,0dB和-10dB白噪声下,分别提高了0.153,0.098和0.096。2、为了提高码本生成过程中初始码本对信源空间的感知表达能力,提出了一种基于自适应正交M码字分裂的码本生成方法。在码本初始化过程中把每个码字按照码本生成策略分裂成相互正交的多个码字,并通过感知码字对应胞腔的信源分布情况自适应设置分裂矢量大小,使初始化码字能更好地表达语音信号的信源空间,从而减少后续的聚类迭代次数。新方法与二分初始化码本生成方法相比,在保持相近量化失真的前提下,把生成不同大小码本的时间降低了18%~45%。3、针对基于平均失真度生成的传统码本对编码资源分配不合理问题,从人耳感知理解的语音角度,提出一种基于人耳感知的线谱频率(Linear Spectrum Frequency,LSF)参数矢量量化码本设计方案,该方案根据LSF残差的大致分布采用非标准椭圆方程划分多个区域,以过渡段信号更有助于人耳理解语音这一事实作为依据,采用按区域调整训练样本比例的方式对编码资源进行全局调整,并使用调整后的样本设计量化码本。实验结果表明,在500bps声码器应用中,新码本编译码后合成语音的PESQ值相比原码本在男女声样本上分别提高了0.03和0.02。另外,为了降低码本存储容量以及搜索码字造成的时延,把分区域设计码本的思想与格型矢量量化方法相结合,提出了一种基于全局非均匀局部均匀的自适应多尺度格型矢量量化方法,实验结果表明,改进方法在量化失真上略大于传统的多级矢量量化算法,但码本存储容量减少幅度为60%~100%,量化时延降低幅度为69%~80%,在时延、存储容量与量化性能之间取得更好的平衡。4、在编码器对语音信号信息结构与内容的客观感知层面上,从压缩和优化两个角度探讨利用压缩感知理论提升低速率编码器性能的可行性。一方面,分析了LSF参数在不同变换域下的稀疏性,开展了基于压缩感知的LSF参数重构性能研究,研究证实了LSF参数在DFT域和学习字典下均具有不同程度的稀疏性,且在重构性能方面学习字典优于固定变换域;另一方面,为了在译码端减少LSF参数的量化失真,提出了一种基于稀疏表示的译码端LSF参数优化算法,结合量化误差的先验知识,在译码端对声码器参数进行优化调整,研究结果表明,优化后的LSF参数平均失真度比优化前降低了约0.3~1.8%。5、最后,整合上述语音检测和感知码本设计的相关研究成果,提出了基于感知的500bps极低速率语音编码算法。实验结果表明,新算法与中科院在2013年提出的算法相比,在更低的码本存储需求下,无噪环境中合成语音的PESQ提高幅度为0.201和0.141。