论文部分内容阅读
语音是人类通信中最方便、快捷的形式,随着人工智能社会的到来,语音交互也成人机交互的第一选择。然而在现实生活中,语音的背景环境往往是复杂且对语音质量产生负面影响的,我们常常需要从复杂的噪声背景中提取出我们感兴趣的语音并且尽可能保持语音的保真度。目前研究者们已经取得较多显著的成果,但是依旧面临着算法的鲁棒性不强和目标语音的感知质量不够高等问题。本文将针对从复杂噪声背景中提取出单目标语音和多说话人分离两个场景做了一些深入的研究。首先是复杂噪声背景中单目标声源的语音分离的研究。针对噪声的存在特别是低信噪比的场景,广义互相关(GCC)的性能严重下降,从而严重影响广义互相关-非负矩阵分解(GCC-NMF)的分离性能。针对该情形,本文提出了新的校准函数——将基于双向长短记忆网络(BLSTM)学习到的理想二值掩蔽(IBM)作为新的权重因子加入的GCC-PHAT(MWGCC-PHAT)和GCC-NMF(MWGCC-NMF)。实验表明,MWGCC-NMF能够分离出GCC-PHAT分离失败的低信噪比混合语音。总体性能上对比GCC-NMF,SDR相对提高了25.44%,PESQ提高了14.75%,OPS提高了9.80%,SNR提高了6.3 8%。证明了MWGCC-PHAT有更好的鲁棒性和性能。其次是多说话人的语音分离的研究。由于GCC-NMF无法分离关于麦克风对中轴镜像对称或者近似对称的不同源、对位置信息很敏感等的缺陷,提出了基于Logistics回归选择策略的GCC-NMF,将圆形六麦克风阵列丰富的空间信息和GCC-NMF计算量小灵活的优点进行融合。实验结果说明,无论是仿真麦克风阵列数据还是实采麦克风数据,基于Logistics回归选择策略的GCC-NMF都比最差麦克风对的GCC-NMF有更好的性能。基于Logistic回归选择的GCC-NMF 比麦克风阵列中性能最差的麦克风对的平均OPS提高了27.47。证明了Logistics回归选择策略的GCC-NMF大幅度提高了GCC-NMF的空间鲁棒性和实用性。