论文部分内容阅读
语音信号是人类日常生活不可或缺的信号之一,以语音信号为处理对象的技术与应用层出不穷,语音增强正是最受关注的语音信号处理技术之一,广泛应用于语音编码、语音识别、听力辅助以及军事通信等领域。随着人工智能的发展,机器学习技术也被逐渐应用到语音增强技术中。相较于传统语音增强算法,机器学习算法的融合提升了语音增强算法的性能,却也带来了新的问题,包括机器学习模型的选择、语音信号特征的选择、模型输出结果的应用等。针对上述问题,本文以阵列信号处理为基础,主要研究基于三种不同机器学习模型的语音增强算法,借助语音信号特征的掩膜估计,进行更准确的波束形成,从而提升语音增强算法性能。具体内容如下。1)研究了基于支撑矢量机(Support Vector Machine,SVM)的语音增强算法,提出了采用非归一化加权频率融合的方法。本文对利用语音信号频域掩膜估计进行特定频段归一化加权融合的过程进行了研究,针对该过程提出了采用非归一化加权融合的方法,并对这两种方法进行了理论分析,与传统宽带波达方向角(Direction of Arrival,DOA)估计算法进行了对比仿真,验证了改进的有效性以及这两种方法对阵列误差鲁棒性不足的问题。2)研究了基于复高斯混合模型(Complex Gaussian Mixture Model,CGMM)的语音增强算法。本文对基于CGMM的语音信号时频域掩膜估计以及利用掩膜估计进行导向矢量及协方差矩阵估计的过程进行了研究,并将该算法与基于SVM的语音增强算法以及基于传统宽带DOA估计的语音增强算法进行了对比分析,仿真发现该算法对阵列误具有差较好的鲁棒性。3)研究了基于卷积神经网络(Convolutional Neural Networks,CNN)的语音增强算法,提出了利用时频域二值掩膜估计波束形成相关参数的方法。本文对利用语音存在概率进行导向矢量及协方差矩阵估计的过程进行了研究,针对该过程提出了利用语音存在概率估计时频域二值掩膜并进行参数估计的方法。本文对这两种方法进行了理论分析,并与采用SVM的语音增强算法和采用CGMM的语音增强算法进行了对比仿真,验证了改进的有效性以及这两种方法对阵列误差的鲁棒性。