论文部分内容阅读
语音是人类传递信息最重要的途径之一,但现实中的语音信号经常被其他人声混杂或被环境噪声干扰,因此语音分离作为提取混合语音信号中独立语音源的任务,一直以来都是信号处理领域重要的研究方向之一。语音分离任务来源于“鸡尾酒会问题”,常被用作其他语音应用的前置预处理操作,对自动语音识别、助听器开发与人机交互等应用有着重要作用。
传统上的语音分离技术多数着眼于单模态语音信号的处理,但随着多媒体应用与信息技术的发展,近年来语音信号与说话人视频信号经常同时进行处理。由于视频信号基本不受声学环境的影响,而且说话人的视觉信息如面部表情与唇部动作等都与语音信号有很强的关联性,运用多模态融合的方法进行语音分离已成为一个新的研究趋势。在同声传译、记者采访等场景中,通常视频信号中只有一个说话人,而音频信号是两个或多个说话人语音信号的混合,则将与视频中说话人有关的语音信号称为屏幕内语音,与视频中说话人无关的语音信号称为屏幕外语音。本论文针对以上观点,在大量阅读文献与研究已有方案的基础上,运用深度学习技术提出了两套基于多模态融合的屏幕内外语音分离算法,本论文的主要研究内容如下:
(1)本论文首先提出了一个基于音视频融合与残差补全的屏幕内外语音分离算法。该算法使用一个屏幕内U-Net对混合语音语谱图进行处理,端到端的生成预测屏幕内语音语谱图。同时使用一个基于CNN的音视频特征融合网络进行音视频特征提取与融合,并将融合后的音视频融合特征与屏幕内U-Net结合,利用音视频融合信息对语谱图预测进行辅助。为提升屏幕外语音分离效果,该算法还创新性地引入了一个残差U-Net,通过生成残差语谱图对屏幕外语音语谱图进行补全,消除屏幕内、外语音频率叠加、扰动所产生的残差。该算法在VoxCeleb2数据集上进行了不同角度的实验,验证了算法的先进性与可靠性。
(2)本论文还提出了一个结合运动信息的音视频融合屏幕内外语音分离算法。该算法使用语谱图预测U-Net对混合语音语谱图进行处理,分别预测屏幕内与屏幕外语音的语谱图。同时使用CNN与BLSTM结合的图像-光流融合网络对唇部图像与运动信息进行特征提取与融合,并将唇部图像-光流融合特征输入到预测U-Net中,对语谱图预测提供信息辅助。该算法在基于CNN的多模态特征融合网络的基础上引入了BLSTM,对图像与运动信息中的时序特征进行提取。同时该算法并没有使用完整的视频信息,而是使用唇部区域的灰度图像与光流信息,充分利用唇部区域视频信号与语音信号的紧密关联,在消除冗余信息的同时确保关键信息的保留。该算法在VoxCeleb2数据集上进行实验,验证了其在屏幕内外语音分离任务中的先进性与不同条件下的鲁棒性,同时还研究了该算法中各部分结构对整体结果的影响。
传统上的语音分离技术多数着眼于单模态语音信号的处理,但随着多媒体应用与信息技术的发展,近年来语音信号与说话人视频信号经常同时进行处理。由于视频信号基本不受声学环境的影响,而且说话人的视觉信息如面部表情与唇部动作等都与语音信号有很强的关联性,运用多模态融合的方法进行语音分离已成为一个新的研究趋势。在同声传译、记者采访等场景中,通常视频信号中只有一个说话人,而音频信号是两个或多个说话人语音信号的混合,则将与视频中说话人有关的语音信号称为屏幕内语音,与视频中说话人无关的语音信号称为屏幕外语音。本论文针对以上观点,在大量阅读文献与研究已有方案的基础上,运用深度学习技术提出了两套基于多模态融合的屏幕内外语音分离算法,本论文的主要研究内容如下:
(1)本论文首先提出了一个基于音视频融合与残差补全的屏幕内外语音分离算法。该算法使用一个屏幕内U-Net对混合语音语谱图进行处理,端到端的生成预测屏幕内语音语谱图。同时使用一个基于CNN的音视频特征融合网络进行音视频特征提取与融合,并将融合后的音视频融合特征与屏幕内U-Net结合,利用音视频融合信息对语谱图预测进行辅助。为提升屏幕外语音分离效果,该算法还创新性地引入了一个残差U-Net,通过生成残差语谱图对屏幕外语音语谱图进行补全,消除屏幕内、外语音频率叠加、扰动所产生的残差。该算法在VoxCeleb2数据集上进行了不同角度的实验,验证了算法的先进性与可靠性。
(2)本论文还提出了一个结合运动信息的音视频融合屏幕内外语音分离算法。该算法使用语谱图预测U-Net对混合语音语谱图进行处理,分别预测屏幕内与屏幕外语音的语谱图。同时使用CNN与BLSTM结合的图像-光流融合网络对唇部图像与运动信息进行特征提取与融合,并将唇部图像-光流融合特征输入到预测U-Net中,对语谱图预测提供信息辅助。该算法在基于CNN的多模态特征融合网络的基础上引入了BLSTM,对图像与运动信息中的时序特征进行提取。同时该算法并没有使用完整的视频信息,而是使用唇部区域的灰度图像与光流信息,充分利用唇部区域视频信号与语音信号的紧密关联,在消除冗余信息的同时确保关键信息的保留。该算法在VoxCeleb2数据集上进行实验,验证了其在屏幕内外语音分离任务中的先进性与不同条件下的鲁棒性,同时还研究了该算法中各部分结构对整体结果的影响。