论文部分内容阅读
现代信息技术的快速发展,已经有越来越多的语音信号处理技术融入到我们的生活中,例如语音识别、语音增强、智能语音交互等,这些技术的成熟极大的方便了我们的日常生活和工作。而如何准确的评估语音性能,也一直是众多学者研究的热点,现如今语音性能的评估主要从语音质量和语音可懂度两个方面进行测评。一个准确有效的语音评估方法不仅可以提升通信系统的性能,而且可以间接检验语音增强算法的性能。语音的主观评价拥有人类对语音信号最真实的感受,然而主观评价费时费力,更是无法应对如今海量语音数据的评价需求。近年来,以计算机信息处理技术为核心,以最接近人类主观评价分数为目标的客观评估方法成为了研究热点。本文首先回顾了语音信号的基本知识和语音可懂度评价指数的发展历程。简述了现如今先进的语音主客观评价方法,分析客观可懂度评估方法的改进过程和评估思想,这对本文后面的研究提供了启发。本文首先将基于人耳耳蜗基底膜听觉特性的Gammatone滤波器组被应用于频域激励谱滤波,结合加权频带信噪比方法计算语音信号激励谱能量失真,相对于传统方法,改进的语音可懂度评估方法在Babble、Car、Street背景噪声环境下与主观评价分数的相关系数都有了明显提升。同时,本文还研究了元音和辅音对语音可懂度的相对贡献,在归一化协方差评价方法的基础之上,以语音所有频带信噪比(Signal To Noise Ratio,SNR)的相对均方根(Root Mean Square,RMS)值为阈值进行频域分段。语音频段被分为两个等级,高信噪比频段和低信噪比频段。对两种频段的语音信号采用归一化协方差方法(NCM)计算各自的语音可懂度客观评估分数。实验结果显示高信噪比频段语音含有更多的语音可懂度信息且与整体评估分数接近。同时,统一模型的提出结合了两段语音可懂度的相对贡献,当权重系数为0.2时,所提模型的评价结果与主观评价分数拥有高相关性。