论文部分内容阅读
语音分离技术,作为语音合成和语音识别等技术的重要基础,在语音信号处理技术中占有着至关重要的地位。传统基于单麦克风的语音分离方法在理想的无噪、无混响的环境中能够对混合语音信号进行较好的分离,但它在多声源、高噪声环境下的分离效果并不理想。基于麦克风阵列的语音分离方法能够利用波束形成方法对目标方向的声源信号获得更高增益,并对其非目标方向进行较强的抑制,从而获得更好的语音分离性能。但对于语音而言,其明显的带宽和不稳定特性导致了语音分离方法中信号权矢量准确的获取难度远远大于传统天线阵列中平稳的窄带电磁波信号。因此,围绕如何减小语音分离过程中的信号抵消现象,论文对现有的语音分离方法进行更加细致的分析和改进。论文对一种基于双麦克风阵列的语音分离方法进行了实现和改进,并在此基础上对一种基于球面正四面体麦克风阵列的语音方法进行了设计和仿真实现。论文以基于ICA的单麦语音分离方法为参照,利用PESQ语音质量评价方法对利用上述两种算法分离后的语音质量进行了评估,结果显示所设计的方法能够实现较好的语音分离性能。论文重点对两种基于麦克风阵列的语音分离方法的实现与改进进行论述,具体地说,主要进行了如下几方面的工作:首先,论文在介绍语音分离技术的研究背景、意义、现状以及发展趋势的基础上,对基于麦克风阵列语音分离技术的相关原理进行了较为全面的阐述。讨论了语音和噪声的信号特征及语音信号在阵列处理中的难点所在。从波动方程入手,深入浅出的对方法中所涉及的远场宽带信号模型进行了推导。又对常见的麦克风阵列拓扑结构进行了简单介绍,并对MVDR波束形成方法和基于FIR滤波器的宽带波束形成方法的相关原理进行了阐述,为下步方法实现与改进奠定了理论基础。其次,论文对基于双麦克风阵列的语音分离方法进行了实现。该方法主要包含有三个部分,即语音活动性分类模块、语音分离模块和后置检查模块。其中,语音活动性模块用于自动鉴别声源的语音活动性是否处于活动状态,并将其结果发送至语音分离模块中的自动控制组件,以便控制MVDR波束形成器自适应性的开闭状态,从而正确获取语音信号的相关性;语音分离模块用于将麦克风阵列所接收到的混合语音信号进行准确分离,并且为了避免信号输出时的相位不连续现象,模块选用MVDR波束形成器与FIR滤波器相结合的方式来对宽带语音信号进行分离;后置检查模块利用输出信号的功率对之前的语音活动性分类结果进行检查和校正,以便获得更加准确的语音分离结果。再次,论文对一种基于球面正四面体麦克风阵列的语音分离方法进行了设计和仿真。其原理相似于上面的双麦克风阵列方法,不同之处在于该方法利用更多的阵元和谐波域对含噪混合语音信号进行处理,其优势在于方法对权向量、互功率谱矩阵以及阵列流形矩阵的计算相比于阵元域都为简单和准确。最后,论文以基于ICA的单麦语音分离方法为参照,利用PESQ语音质量评价标准对上述三种算法分离后的语音信号进行了质量评估,结果显示利用所设计的方法分离后的语音信号PESQ得分均值及标准差都优于前两种方法,体现出所设计的方法能够实现较好的语音分离性能。论文结尾总结了所设计方法存在的优点和不足,提出了进一步的改进方向。