基于听觉感知特性的语音质量客观评价方法

来源 :西南交通大学学报(社会科学版) | 被引量 : 0次 | 上传用户:gjj19901005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要: 讨论了基于MFCC (Melfrequency cepstral coefficients)特征参数的语音质量客观评价方法MelCD (Melcepstral distance measure).根据心理声学原理将Johannesma提出的人耳听觉模型和非线性压缩变换引入MFCC特征参数的提取过程,用Gammatone滤波器组对人耳基底膜进行仿真.利用改进后的MFCC作为语音信号特征参数,提出了一种更加符合人耳听觉感知特性的客观评价方法——MelGD (Melcepstral gammatone filter bank distance measure).性能测试结果表明:所提算法与MelCD算法在时间复杂度上保持一致,评价结果的主观与客观的相关度提高了4.9%,平均估计偏差改善了45.5%.
  关键词: 语音质量;MFCC;Gammatone滤波器组;非线性变换
  中图分类号: TN912文献标志码: AObjective Evaluation Method of Speech Quality Based on
  Auditory Perceptual PropertiesTAN Xiaoheng,XU Ke,QIN Jiwei
  (College of Communication Engineering, Chongqing University, Chongqing 400044, China)
  Abstract:Based on Melfrequency cepstral coefficients (MFCC), Melcepstral distance measure (MelCD) algorithm used for the objective evaluation of speech quality was analyzed. According to the theory of psychoacoustics, a human auditory model proposed by Johannesma and nonlinear compression were applied to extracting MFCC. Gammatone filter bank was used to simulate the basilar membrane. Melcepstral gammatone filter bank distance measure (MelGD) based on the improved MFCC was proposed, which was more in accordance with the auditory perceptual properties. Performance testing results showed that the proposed algorithm compared favorably with the MelCD in time complexity, the correlation degree between objective evaluation and subjective evaluation was improved by 4.9%, and estimation bias was decreased by 45.5%.
  Key words:speech quality; Melfrequency cepstral coefficients (MFCC); Gammatone filter bank; nonlinear transformation
  语音质量评价是衡量语音通信系统性能优劣的根本标准之一,从评价主体上讲可分为两大类:主观评价和客观评价[12].ITUT建议书P.830提出的MOS(mean opinion score)方法[3]是一种广泛使用的主观评价方法,用测试者的平均意见分来直观地反映人对语音质量的感觉,但此类方法可操作性和可重复性较差.客观评价方法通过测量语音信号特征参数来评价语音质量,使客观评价结果能够准确预测出语音质量的主观评价结果,具有更高的实用价值.ITUT建议书P.862提出的PESQ(perceptual evaluation of speech quality)感知语音质量评价[4]是当前性能很高的语音质量客观评价方法,能够较好地识别通信时延、环境噪声和错误,但其是基于Bark谱的感知模型,运算复杂度较高,不利于实时评价语音质量.
  MelCD (Melcepstral distance measure)失真测度以MFCC (Melfrequency cepstral coefficients)作为语音特征参数,运算复杂度较低,是一种简便有效的语音质量评价方法[57],但研究中发现其评价性能与PESQ相差较大.通过分析表明,虽然MFCC特征参数提取过程中利用了人耳的听觉原理和Mel倒谱的解相关特性,但是其采用了三角形滤波器组来模拟耳蜗基底膜的频率选择特性和采用对数运算来模拟幅值非线性变换过程,并不能充分地反映人耳的听觉感应特性.因此,本文根据心理声学原理对MFCC进行了改进:
  (1) 用Gammatone滤波器组对耳蜗基底膜进行仿真,弥补了Mel倒谱中的三角形滤波器组滤波时相邻频带间频谱能量相互泄露严重的不足;
  (2) 用非线性压缩运算代替对数运算来更好地模拟强度响度变换过程.
  并利用改进后的MFCC作为特征参数,提出了一种更加符合人耳听觉感知特性的语音质量客观评价方法——MelGD (Melcepstral gammatone filter bank distance measure)失真测度.1MelGD算法分析语音质量评价从评价结构上讲可分为基于输入输出方式的和基于输出方式的[1].目前,比较成熟的方法基本上都是基于输入输出方式的,包括:PESQ、MelCD和本文的MelGD等.基于输入输出方式的评价方法原理如图1所示,原始语音和通过被测系统的失真语音经过预处理后提取其特征参数,通过对比两者特征参数的差异来对被测系统语音质量进行评分,其本质上是一种误差度量.   西南交通大学学报第48卷第4期谭晓衡等:基于听觉感知特性的语音质量客观评价方法图1基于输入输出方式的客观评价方法结构
  Fig.1Structure diagram of objective evaluation
  based on inputoutput model
  1.1语音信号预处理原始信号和失真信号首先经过电平调整,将其强度统一到相当于79 dB SPL (sound pressure level)的能量水平,然后经过理想带通滤波器(通带范围:300~3 400 Hz)对两路信号进行输入滤波[8],最后通过时间对齐来补偿由被测系统产生的时延.1.2特征参数提取1.2.1MFCC参数提取
  MFCC以较低的谱向量维数反映了人耳听觉系统对语音的幅频感知特性,在噪声环境下具有较强的鲁棒性[910].MFCC参数提取流程如图2所示,预处理后的语音x(n)经过加窗分帧和FFT(fast fourier transformation)变换得到信号频谱,用一组Mel尺度的三角形滤波器组在频域对信号能量谱进行滤波,对每个滤波器的输出能量求对数来模拟强度响度变换,对数能量经过DCT(discrete cosine transform)变换到倒谱域,即可得到MFCC参数.
  图2MFCC参数提取流程
  Fig.2Extraction process of MFCC
  1.2.2改进的MFCC参数提取
  改进后的算法采用了与MFCC参数提取相同的处理框架,但根据人耳的听觉生理模型和强度响度感知特性,在提取过程中做了相应的改进,具体处理流程如下所示.
  (1) FFT加窗
  对预处理后的语音信号x(n)进行加汉宁窗的FFT变换,得到信号频谱Xk(f).
  (2) 频率扭曲
  人耳所听到声音的高低与声音的频率并不呈线性正比关系,采用Mel频率尺度更符合人耳的听觉特性.Mel频率与实际频率的具体关系为
  M(f)=2 595 lg(1+f/700),(1)
  式中:实际频率f的单位是Hz.
  (3) 带通滤波
  MFCC中的三角形滤波器组滤波时相邻频带间存在频谱能量相互泄露,不利于反映共振特性.Gammatone滤波器源于耳蜗基底膜模型,用简单的冲击响应函数就能够体现基底膜尖锐的滤波特性[1114],弥补了三角形滤波器组的不足.Gammatone滤波器组的时域表达式为
  gl(t)=tn-1e-2.038πbltcos(2πflt+l)u(t),
  l=1,2,…,L,(2)
  式中:n为滤波器阶数;bl、fl和l分别为第l个滤波器的等效矩形带宽、中心频率和初始相位;u(t)为阶跃函数;L为滤波器个数.
  在Mel频率轴上配置具有L个通道的Gammatone滤波器组Gl(f),每个滤波器的中心频率fl在Mel频率轴上等间隔分布.一组Mel尺度的Gammatone滤波器组如图3所示,中心频率fl两侧斜率较大,表明Gammatone滤波器具有尖锐的频率选择特性[13];滤波器边沿的衰减很缓慢,有效地避免了相邻频带间的能量泄露.这些幅频响应特性与基底膜的滤波特性是一致的,同时也补偿了不同的人发同一音时共振峰的偏移对语音特征参数提取的影响.
  图3Mel尺度的Gammatone滤波器组
  Fig.3Gammatone filter bank in Mel scale
  通过一组Mel尺度的Gammatone滤波器组,在频域对能量谱进行滤波,得到每个Gammatone滤波器的输出能量:
  Pk(l)=∑N-1f=0Gl(f)Xk(f)2,l=1,2,…,L.(3)
  (4) 强度响度变换
  MFCC参数将对数运算视为幅值非线性变换过程,但是对数运算源于同态解卷积,其变换特性不能很好地模拟语音的强度响度感知特性[9].非线性压缩运算基于强度响度感知变换,用其代替对数运算能使特征参数的提取过程更好地符合听觉生理模型.本文采用立方根函数来模拟强度响度的非线性压缩关系,立方根函数与对数函数的曲线特性如图4所示.
  这不仅符合了人耳的听觉感知特性,而且计算过程简单.立方根非线性压缩变换的计算公式为
  Sk(l)=[Pk(l)]1/3.(4)
  (5) RASTA(relative spectral)滤波
  RASTA滤波处理用一个低端截止频率很低的带通滤波器对语音信号进行滤波,能有效地抑制信号频谱中的常量或变化缓慢的非语音部分,增强动态成分[15].带通滤波器H(Z)的表达式为
  H(Z)=0.1×Z4(2+Z-1-Z-3-2Z-4)1-0.98Z-1.(5)
  图4立方根和对数的函数曲线
  Fig.4Curve diagram of cube root and
  logarithm operations
  (6) DCT变换
  立方根能量经过RASTA滤波和DCT变换到倒谱域,即可得到改进的MFCC参数.
  Ck(i)=H(Z)∑Ll=1Sk(l)cos[πi(l-0.5)/L],
  i=0,1,…,p,(6)
  式中:p为参数的阶数,本文取p=12.
  综上所述,改进的MFCC参数提取流程如图5所示.虽然与基于同态处理倒谱分析的MFCC参数形式上保持一致,但是更加符合人耳的生理模型和听觉感知特性,有利于提高语音质量客观评价算法的性能.
  图5改进的MFCC参数提取流程   Fig.5Extraction process of the improved MFCC
  1.3失真测度计算失真测度可以很好地模拟人耳对原始语音和失真语音的比较过程,本文采用平均欧氏距离作为失真大小的度量.
  定义原始语音信号为x(n),失真语音信号为y(n),提取的p阶特征参数为:Cx,k(i)和Cy,k(i),则原始信号与失真信号第k帧的Mel倒谱距离可定义为
  d(k)=∑pi=0[Cx,k(i)-Cy,k(i)]21/2.(7)
  平均动态Mel倒谱距离D为
  D=∑Kk=1w(k)d(k)∑Kk=1w(k),(8)
  式中:K为信号总帧数;权重w(k)为第k帧的能量.1.4预测主观MOS值客观评价方法的目的是使其评价结果能够准确预测出语音质量的主观MOS值.算法最后一步是将倒谱距离D按最小二乘法准则进行二次多项式拟合,以对应相应语音质量的客观MOS值(或称为预测MOS值).采用30对已知MOS值的语音样本进行测试,根据MOS值和倒谱距离D的对应关系来确定二次多项式的系数.2实验结果及分析2.1客观评价的有效性语音质量客观评价方法的性能优劣一般用客观MOS值与主观MOS值之间的相关程度和预测误差衡量.相关程度采用Person相关系数r描述,r越接近1,客观评价方法预测主观MOS值越准确.
  r=∑(aj-)(bj-)∑(aj-)2∑(bj-)2,(9)
  式中:aj和bj分别为第j个语音样本的主观MOS值和客观MOS值;和分别为两者的算术平均值.
  预测误差采用标准估计偏差δ描述,δ越小,客观评价失真测度的波动越小.
  δ=∑(aj-bj)2/N,(10)
  式中:N为样本总数.2.2结果分析实验中所使用的语音样本为ITUT P.23语音库中的已知主观MOS值的语音文件.本文将PESQ的评价结果作为基准,来比较MelCD和MelGD的性能.为了验证MelGD算法在语音通信系统中的通用性和有效性,根据语音编码方式将实验分为3组.按表1的参数来进行3组评测实验,其中:X、Y、Z表示CSACELP、ADPCM、LDCELP、GSM、μPCM/APCM和VSELP编码算法其中之一;→表示两者串联.
  PESQ、MelCD和MelGD对3组实验进行客观评价的有效性分析如表2所示.由表2的数据可知,MelGD比MelCD的主观与客观的相关性提升了4.9%,平均估计偏差降低了45.5%,但总体性能比PESQ略低.
  表1实验参数设置
  Tab.1Experimental parameter settings
  实验序号编码算法文件对数1X942X→Y1023X→Y→Z98
  表2PESQ、MelCD和MelGD有效性分析
  Tab.2Validity analysis of PESQ, MelCD and MelGD
  实验
  序号PESQrδMelCDrδMelGDrδ10.9380.2840.8540.6220.8990.43220.9070.4130.8140.8640.8690.40430.8860.3800.8270.7550.8520.384平均值0.9100.3590.8320.7470.8730.407
  3种算法在平均运行时间方面的对比如表3所示.由表3可知,MelGD和MelCD的平均运行时间大致相同,算法复杂度基本一致;与PESQ相比,MelGD在平均运行时间上减少了26.7%,而评测结果的相关度仅下降了4.1%.
  表3PESQ、MelCD和MelGD运行时间对比
  Tab.3Running time comparison
  of PESQ, MelCD and MelGDs
  实验序号PESQMelCDMelGD12.1411.3241.52522.2101.4391.67232.1731.4211.589平均值2.1751.3951.595
  上述结果表明,MelGD算法保留了MelCD算法运行时间较短和算法复杂度低的优点,但评价准确性较MelCD算法有了很大的提高.与PESQ算法相比,评价准确性相差较小,但运行时间和算法复杂度减小明显.3结论本文提出的MelGD算法结合人耳的听觉生理模型和感知特性对MFCC特征参数进行了改进,比MelCD算法具有更好的主观与客观的相关性,且适应性好,是一种符合人耳听觉感知特性且简便有效的语音质量客观评价方法,借助于各种语音信号处理方法可将其应用于语音编/解码器和通信网络的语音质量客观评价.参考文献:[1]陈国,胡修林,张蕴玉,等. 语音质量客观评价方法研究进展[J]. 电子学报,2001,29(4): 15.
  CHEN Guo, HU Xiulin, ZHANG Yunyu, et al. Research advance on objective measures of speech quality[J]. Acta Electroncia Sinica, 2001, 29(4): 15.
  [2]李薇,胡智奇,尚秋峰,等. 语音质量客观评价方法的研究[J]. 电力系统通信,2009,30(198): 6467,71.
  LI Wei, HU Zhiqi, SHANG Qiufeng, et al. Research on objective evaluation of speech quality[J]. Telecommunications for Electric Power System, 2009, 30(198): 6467, 71.   [3]Telecommunication Standardization Sector of ITU. ITUT Recommendation P.830 Subjective performance assessment of telephoneband and wideband digital codecs[S]. Geneva: International Telecommunication Union, 1996.
  [4]Telecommunication Standardization Sector of ITU. ITUT Recommendation P.862 Perceptual evaluation of speech quality (PESQ): An objective method for endtoend speech quality assessment of narrowband telephone networks and speech codecs[S]. Geneva: International Telecommunication Union, 2001.
  [5]KUBICHEK R. Melcepstral distance measure for objective speech quality assessment[C]∥Proceedings of IEEE Pacific Rim Conference on Communications, Computer and Signal Processing. Piscataway: IEEE Press, 1993: 125128.
  [6]DAVIS S B, MERMELSTEIN P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences[J]. IEEE Trans. on Acoustics, Speech and Signal Processing,1980, 28(4): 357366.
  [7]陈华伟,靳蕃. 基于感知模型的美尔谱失真测度[J]. 西南交通大学学报,2006,41(6): 723728.
  CHEN Huawei, JIN Fan. Melspectral distortion measure based on perception model for objective speech quality assessment[J]. Journal of Southwest Jiaotong University, 2006, 41(6): 723728.
  [8]张军,张德运,傅鹏. 一种改进的心理声学语音质量客观评价算法[J]. 微电子学与计算机,2007,24(3): 203206.
  ZHANG Jun, ZHANG Deyun, FU Peng. An improved psychoacoustics speech quality evaluation algorithm[J]. Microelectronics & Computer, 2007, 24(3): 203206.
  [9]陈明义,孙冬梅,何孝月. 基于改进MFCC语音特征参数的语音质量评估的研究[J].电路与系统学报,2009,14(3): 111116.
  CHEN Mingyi, SUN Dongmei, HE Xiaoyue. Study on speech quality evaluation based on improved MFCC[J]. Journal of Circuits and Systems, 2009, 14(3): 111116.
  [10]邓宗元,杨震. 一种改进的语音质量客观评价参数[J]. 南京邮电大学学报:自然科学版,2008,28(2): 1418.
  DENG Zongyuan, YANG Zhen. An improved object measure of speech quality[J]. Journal of Nanjing University of Posts and Telecommunications: Natural Science, 2008, 28(2): 1418.
  [11]梁超. 一种基于Gammatone滤波的语音质量评价算法[J].长春工业大学学报:自然科学版,2010,31(4): 432436.
  LIANG Chao. An algorithm for objective speech quality assessment based on Gammatone filter[J]. Journal of Changchun University of Technology: Natural Science Edition, 2010, 31(4): 432436.
  [12]JOHANNESMA P I M. The preresponse stimulus ensemble of neurons in the cochlear nucleus[C]∥ Proceedings of the Symposium on Hearing Theory. Eindhoven: IPO, 1972: 5869.
  [13]陈世雄,宫琴,金慧君. 用Gammatone滤波器组仿真人耳基底膜的特性[J]. 清华大学学报:自然科学版,2008,48(6): 10441048.
  CHEN Shixiong, GONG Qin, JIN Huijun. Gammatone filter bank to simulate the characteristics of the human basilar membrane[J]. Journal of Tsinghua University: Science and Technology, 2008, 48(6): 10441048.
  [14]李云鸿,胡修林,张蕴玉. 基于人耳听觉模型的语音质量客观评价方法[J]. 华中理工大学学报,2000,28(5): 6365.
  LI Yunhong, HU Xiulin, ZHANG Yunyu. Objective evaluation method of speech quality based on human auditory model[J]. Journal of Huazhong University of Science and Technology, 2000, 28(5): 6365.
  [15]王炜,刘峰,吴淑珍. RASTA滤波在语音通信质量客观评价中应用的研究[J]. 北京大学学报:自然科学版,2003,39(5): 697702.
  WANG Wei, LIU Feng, WU Shuzhen. A study for the application of RASTA on objective communication speech quality evaluation[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2003, 39(5): 697702.
其他文献
今年6月,省委、省政府批转了省社党组、理事会《就推动农业产业化致市、县两级党委、政府的一封信》,要求各级党委、政府要重视和加强对供销社的领导,积极给予支持和帮助,努
应用N-乙酰胆碱受体(N-AChR)放射自显影结合胆碱脂酶组织化学染色定位法,观察梭曼对小鼠、大鼠膈肌和伸趾长肌突触和突触外N-AChR的作用。发现梭曼主要使突触外N-AChR数增多,
目的:评价益气清络法治疗气虚络热型类风湿性关节炎的临床疗效和证候改善疗效.方法:80例病人随机分为治疗组和对照组各40例,治疗组服用益气清络的中药汤剂,对照组服用正清风
分泌性中耳炎系以中耳积液及听力下降为主要特征的中耳炎性疾病,小儿发病率较高,是引起小儿听力下降的常见原因之一,笔者采用中西医结合方法,分期辨治本病,取得了较好的疗效,现介绍
用离体大鼠心脏冠状动脉前降支结扎10min后再灌注模型观察了小檗碱对再灌注心律失常的影响。冠状动脉结扎前10min给药,小檗碱呈剂量依赖性抗再灌注心律失常作用。小檗碱10~(-
功能性消化不良(FD)是指非器质性疾病引起的一组以纳呆食少,餐后上腹部痞满饱胀、嘈杂隐痛、嗳气呃逆,或伴乏力、便溏、恶心呕吐、反酸为主要症状的临床综合症,是常见的消化系统
【正】临近清明,国内农业虽有"点瓜种豆"的传统春耕景象,但对于尿素市场而言,依然是笔者去年同期的那句话"清明时节雨纷纷,尿素商家欲断魂"。据了解,由于国内尿素行情持续低
慢性萎缩性胃炎(CAG)是消化系统常见病、多发病,与胃癌的发生有一定关系,因此,早期防治本病,对防止癌变发生有重要意义。近年来,笔者运用温中养胃冲剂与养阴清胃冲剂分型治疗CAG12
为使小推力发动机航天器在航行中实现轨道快速机动并有效节省燃料,提出了基于拟谱法的航天器轨道转移轨迹优化方法.采用改进的赤道轨道根数,基于高斯动力学方程建立了航天器轨道
近日,龙灯中国在南京农业大学举行“龙之道·龙灯金套餐粮王争霸赛”颁奖盛典,来自江苏省各地的12名粮王代表及他们的指导零售商等共计100多人参加了此次活动。据介绍,“龙