论文部分内容阅读
语音去混响和降躁是语音识别系统中前端声学处理技术中的重要部分。对于智能会议转写系统、声控家具操作系统以及机器人小助手等应用场景,为了提高获得语音的质量,实现高噪声、有混响、距离声源较远的情况下获得符合语音识别需求的声音信号,通常利用麦克风阵列进行语音处理。因而远场条件下的麦克风阵列降噪和去混响是语音处理技术中的研究热点。多通道语音去混响和降噪利用按一定几何结构(常用线性、环形)摆放的麦克风组采集到的不同空间方向的声音信号进行空时处理,实现噪声抑制和混响去除,进而提高语音信号处理质量,以提高真实环境下的语音识别率。实现联合多通道语音降噪和去混响常用的技术有:谱增强技术、基于概率模型技术和声多通道均衡技术。期望最大化(EM)算法已经被不少人应用到语音去混响技术中。在对多通道EM去混响和降噪算法的调研分析中发现,以往学者要么是将晚期混响直接用一个理想扩散声场代替,要么通过接收语音直接估计噪声作为已知变量。为了提高EM算法的降噪和去混响能力,我们定义噪声差量变量,并将噪声差量变量也设为隐藏变量,将估计出来的噪声作为算法迭代的初始值,通过EM迭代对其进行求解。为了进一步提高算法的适用性,解决高噪声条件下语音去混响和降噪问题,利用原有算法在高信噪比条件下的去混响和降噪功能很好的特点,结合谱增强技术,先对混合语音使用最小方差无失真响应(MVDR)波束形成器(BF)降噪,然后用EM算法进行去混响。在近似无噪条件下,为了防止出现EM算法不收敛或收敛过慢的现象,此时只将消声语音作为隐藏变量。通过仿真实验对上述两点思想进行测试和验证,评价指标为主观语音质量评估(PESQ)、对数谱距离(LSD)和分段信噪比。实验证明在高信噪比条件下,将噪声差量变量设为隐藏变量能够获得更高的PESQ得分和更小的LSD数值;在低信噪比条件下,结合谱增强技术的EM算法能获得更好的PESQ分数和更高的分段信噪比。