论文部分内容阅读
移动通信网络的覆盖率不断提升,人们已习惯随时随地通话,因而通话场景更加复杂多样,导致环境噪声等对用户通话体验的影响更加突出。本文专注于解决近端通话场景中听音方受周围环境噪声影响听不清远端发送的语音的问题,解决这类问题的算法被称作语音可懂度增强算法。
语音可懂度增强算法通常分为两类:基于规则机制的算法和基于统计机制的算法。基于规则机制的算法利用经验主义或者度量标准构建语音时频域能量调整规则。基于统计机制的算法思想是将普通语音转换为可懂度更高的Lombard语音。Lombard语音源自Lombard效应,是指人在噪声环境中说话时本能改变发声方式去对抗噪声影响时发出的声音。此类算法由于兼顾语音可懂度与自然度逐渐成为主流算法。
现有基于统计机制的算法因声码器中的声学特征参数提取根据纯净语音设计,用于非纯净语音会导致性能急剧下降。其中,基频和频谱包络为影响语音可懂度增强算法性能的关键声学特征,如何从非纯净语音中估计基频和频谱包络特征参数已成为当前语音可懂度增强算法的重要挑战。
本文针对现有的基频估计算法无法从非纯净语音中估计精确的基频值与清浊音判决信息的问题,提出了基于一维卷积神经网络的改进型基频估计算法,利用数据增强和改进的基频稀疏算法提升了基频估计准确率,能够获取更佳的清浊音判决信息。实验表明,清浊音判决误差相对BLSTM相对降低13.55%,粗略基频估计误差相对BLSTM和CREPE分别相对降低12.83%和21.17%。
本文针对现有的频谱包络估计算法从非纯净语音中估计的频谱包络参数准确率不足的问题,提出了基于循环神经网络的频谱包络估计算法,利用语音信号的时序相关性以及数据增强提高了模型的适应能力。相对基于深度神经网络的算法和CheapTrick算法对数谱失真分别平均相对降低4.37%和9.64%。
本文使用基于一维卷积神经网络的改进型基频估计算法以及基于循环神经网络的频谱包络估计算法从非纯净语音中提取基频和频谱包络,并通过高斯混合模型将得到的基频和频谱包络映射成Lombard风格的特征,进一步使用WORLD声码器提取非周期信息,最后实现了Lombard风格语音的合成。整体语音可懂度增强系统的高斯比特级语音可懂度指数分别较对比算法Net-based和W-based相对提升4.66%和9.78%,MOS打分分别提升0.2和0.5。
本文提出的基频与频谱包络估计算法使得现有基于统计机制的语音可懂度增强系统能够适用于非纯净语音,使该系统能够满足更多的应用场景,能够有效改善实际语音通话时的语音可懂度与自然度,提升移动语音通话用户的通话体验。
语音可懂度增强算法通常分为两类:基于规则机制的算法和基于统计机制的算法。基于规则机制的算法利用经验主义或者度量标准构建语音时频域能量调整规则。基于统计机制的算法思想是将普通语音转换为可懂度更高的Lombard语音。Lombard语音源自Lombard效应,是指人在噪声环境中说话时本能改变发声方式去对抗噪声影响时发出的声音。此类算法由于兼顾语音可懂度与自然度逐渐成为主流算法。
现有基于统计机制的算法因声码器中的声学特征参数提取根据纯净语音设计,用于非纯净语音会导致性能急剧下降。其中,基频和频谱包络为影响语音可懂度增强算法性能的关键声学特征,如何从非纯净语音中估计基频和频谱包络特征参数已成为当前语音可懂度增强算法的重要挑战。
本文针对现有的基频估计算法无法从非纯净语音中估计精确的基频值与清浊音判决信息的问题,提出了基于一维卷积神经网络的改进型基频估计算法,利用数据增强和改进的基频稀疏算法提升了基频估计准确率,能够获取更佳的清浊音判决信息。实验表明,清浊音判决误差相对BLSTM相对降低13.55%,粗略基频估计误差相对BLSTM和CREPE分别相对降低12.83%和21.17%。
本文针对现有的频谱包络估计算法从非纯净语音中估计的频谱包络参数准确率不足的问题,提出了基于循环神经网络的频谱包络估计算法,利用语音信号的时序相关性以及数据增强提高了模型的适应能力。相对基于深度神经网络的算法和CheapTrick算法对数谱失真分别平均相对降低4.37%和9.64%。
本文使用基于一维卷积神经网络的改进型基频估计算法以及基于循环神经网络的频谱包络估计算法从非纯净语音中提取基频和频谱包络,并通过高斯混合模型将得到的基频和频谱包络映射成Lombard风格的特征,进一步使用WORLD声码器提取非周期信息,最后实现了Lombard风格语音的合成。整体语音可懂度增强系统的高斯比特级语音可懂度指数分别较对比算法Net-based和W-based相对提升4.66%和9.78%,MOS打分分别提升0.2和0.5。
本文提出的基频与频谱包络估计算法使得现有基于统计机制的语音可懂度增强系统能够适用于非纯净语音,使该系统能够满足更多的应用场景,能够有效改善实际语音通话时的语音可懂度与自然度,提升移动语音通话用户的通话体验。