噪声环境下的说话人识别研究

来源 :科学与财富 | 被引量 : 0次 | 上传用户:djgohx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:论文研究了噪声环境下的基于GMM模型和MFCC参数的说话人识别方法。白噪声环境下,说话人识别的正确率大大降低。论文研究了GMM模型在说话人识别中的应用,并采用MFCC参数作为语音的特征参数进行噪声环境下的识别研究。实验结果表明,在0dB到15dB的噪声环境下,使用GMM模型进行说话人识别时,采用MFCC参数比采用LPCC特征参数能够获得更高的识别率。在10dB的低信噪比环境下,使用MFCC参数的说话人识别,仍然可以获得75.6%的识别率,可以有效进行识别。
  关键词:说话人识别 ,GMM,MFCC,噪声环境。
  1、引言
  说话人识别技术是指通过计算机自动识别测试语音说话人身份的技术。最基本的原理是将经过预处理的语音信号进行特征参数提取,建立说话人模型,再与已有的训练好的模型经行匹配,从而来判断是具体哪个说话人或判断是否是某个被指定的说话人。就特征参数而言,MFCC模拟了人的听觉特性,是符合人听觉特性的语音特征参量,在实际应用中较为广泛。但在噪声环境下,MFCC的识别率大大降低。为此,有必要对噪声环境下,基于MFCC参数的说话人识别进行相应研究。
  论文主要研究了MFCC参数在不同信噪比下的说话人识别特性。采用GMM识别模型作为识别分类器。文章第2部分对GMM模型及其在说话人识别系统中的应用作了说明,第3部分对MFCC参数的提取方法进行了详细的阐述。最后通过实验比对MFCC参数和LPCC参数两种特征参数的识别率。
  2、说话人识别模型
  说话人识别模型的选择和建立是说话人识别中最重要的问题之一,在不同的应用场合选择合适的模型对于提高系统性能非常重要。目前针对各种特征而提出的模式匹配方法的研究越来越深入,其主流方法大致可分为三类:非参数模型方法,参数模型方法和人工神经网络方法。参数模型方法中,高斯混合模型(GMM—Gaussian Mixture Model)是近年来说话人识别采用的最主流的技术。
  2.1 高斯混合模型
  高斯混合模型是用M个单高斯分布的线性组合来描述特征在特征空间中的分布。一个M阶的混合高斯模型的概率密度函数是由M个单高斯概率密度函数加权和得到的,表示如下:
  (1)
  其中X是一个D维的随机向量,wi(i=1 , … , M)是混合权重,且满足
  bi(X)(i=1 , … , M)是第i维高斯概率分布:
  (2)
  其中, 是均值向量, 是协方差矩阵。
  整个的高斯混合模型便可由参数的均值向量,协方差矩阵和混合权重来描述,则高斯混合模型λ可以表示为如下一个三元组:
  (3)
  其中,协方差矩阵 可以取普通矩阵,也可以取对角矩阵。由于取对角矩阵计算简单,性能也好,所以下文中带入对角矩阵的形式,即:
  (4)
  其中, 为GMM第i个分量所对应的特征矢量的第k维分量的方差。
  为说话人建立高斯混合模型,是给定一组训练数据,通过训练,依据某种准则确定参数。最常用的参数估计方法是最大似然估计。最大似然估计的目的是在给定训练矢量集的情况下,寻找合适的模型参数λ,使GMM的似然函数最大。
  设某说话人的训练特征矢量序列为 ,经计算最佳参数值如下:
  (5)
  (6)
  (7)
  其中 称为后验概率,表示为:
  (8)
  2.2 说话人识别系统
  对不同说话人的纯净语音提取特征参数后,用GMM对其训练,从而得到不同说话人特征参数的GMM分布,即訓练好的GMM模型。在进行说话人识别时,将待识别的含噪语音经过同样的特征提取,并与训练好的GMM匹配,计算似然函数,从而确认待识别的说话人的身份。图1给出了基于GMM的说话人识别系统的流程图。相比较其他模型而言,高斯混合模型有着其独特的优越性,因为它们的训练速度快,并且随着训练集适当的增加,相应的高斯模型的拟合度也会提高。
  图1 基于GMM的说话人识别系统框图
  然而,由于训练时使用纯净语音,而本文研究的是噪声环境下的语音,两者之间必然会存在特征参数的不匹配。因此,通常噪声环境会大大降低说话人识别的识别率。
  3、美尔频率倒谱系数(MFCC)
  语音特征是确定说话人识别系统性能的最主要的因素之一,如何能选取更好地表征说话人的特征参量也是说话人识别系统面临的基本问题,它的合理性和准确性影响到整个说话人识别系统的性能。MFCC模拟了人的听觉特性,是符合人听觉特性的语音特征参量,在实际中应用较为广泛。但是,运用MFCC参数的说话人识别在噪声环境下,鲁棒性较差,系统的识别率也大大降低了。
  人的耳朵能从嘈杂的背景噪声中听到语音信号,这是因为人的内耳基础膜对外来信号会产生调谐作用。在声压恒定的情况下,当噪声被限制在某个带宽内,其人耳感觉的主观强度是恒定的。对于不同的频率,在相应的临界带宽内,一个具有复杂包络的信号的响度等价于在这个带宽中心频率位置的响度,而与信号本身的频率无关,因此可以通过带通滤波器组来模仿人耳听觉。与生理特性一致,心理学的研究进一步表明,人类对于声音音调的感受不是线性的。所以人们定义了新的频率单位Mel频率,它与频率的关系可用下式近似表示:
  (9)
  MFCC特征提取的流程一般如下:
  1. 图2是按照公式(9)进行Mel频率划分后得到的滤波器组,每个滤波器在以Mel为单位的频率轴上是等间距的,而在以Hz为单位的频率轴上是不等间距的,图中纵坐标的单位为归一化单位。
  图2 采用三角形窗的Mel滤波器组
  设o(l)、c(l)、h(l)分别是第l个三角形滤波器的下限、中心、上限频率,则相邻三角形滤波器之间有如下关系:   (10)
  2. 对每一帧语音xm(n)进行离散傅里叶变换,将语音信号由时域变换到频域并计算出语音信号幅度谱|Xm(k)|, k为频率,然后求l个三角形滤波器的输出m(l):
  (11)
  其中每个三角形窗表示为:
  (12)
  3. 对所有滤波器的输出做对数运算,再进一步做DCT变换,即可得到MFCC参数:
  (13)
  其中 , N表示MFCC参数的维数, 即第i维MFCC参数。
  经过上述步骤,就可以获得MFCC参数。
  图3 MFCC特征参数的提取算法流程图
  4、实验结果和分析
  实验在相同条件下,对各个参数对系统识别率的影响进行比对。
  1. 实验条件
  实验数据为TIMIT语音库部分数据,共有160个说话人,每个人有十句话。选择其中的前九句话用作训练,后一句话用作识别。噪声来源于NOISEX-92数据库,不同信噪比的噪声的加入会不同程度地影响系统的识别率。
  2. 实验参数的设置
  语音信号按16kHz进行采样,8bit量化处理,帧长为256点,帧移为128点。此外,两种特征参数分别是:12阶的LPCC,16阶的MFCC。GMM模型的阶数为64阶。
  3. 实验结果:
  表1两种特征参数对应的说话人识别的识别率(%)
  相应的数据图如图4所示:
  图4 两种特征参数对应的说话人识别的识别率数据图
  由图4可以看出,当语音是纯净语音时,LPCC和MFCC相应的识别率均达到了93%以上。但当有噪声加入时,随着信噪比的降低, MFCC比LPCC参数更有优越性。例如,在SNR=0dB低信噪比环境下,LPCC和MFCC相应的识别率分别为19.4%和21.9%。在噪声环境下,把MFCC作为特征参数的说话人识别系统,其识别率更高。
  5、结论
  论文主要研究了MFCC参数在不同信噪比下的说话人识别特性。噪声环境下,MFCC参数比LPCC参数更具有噪声鲁棒性。实验结果表明,在不同信噪比的噪声环境下, MFCC相对于LPCC具有较高的识别率。在SNR=10dB信噪比环境下,用MFCC參数作为特征参数的说话人识别系统,识别率达到了75.6%。
  MFCC参数,在信噪比大于10dB的情况下,具有较好的性能。然而,由于噪声对语音特征的干扰特别大,当信噪比低于10dB时,系统的识别性能急剧下降。这将在以后研究中,进一步深入探讨。
  参考文献
  [1] S. Nakagawa, W. Zhang and M. Takahashi. Text-independent Speaker Recognition by Combining Speaker Speci?c GMM with Speaker Adapted Syllable-based HMM[C]. Proc. ICASSP, 2004, Vol. 1, pp: 81-84.
  [2] Gang Xu, Bo Tong and XiaoWei He. Robust Endpoint Detection in Mandarin Based on MFCC and Short-time Correlation Coefficient[C]. Second International Conference on Intelligent Computation Technology and Automation, 2009, pp: 336-339.
  [3] Rahim Saeidi, Jouni Pohjalainen, Tomi Kinnunen and Paavo Alku. Temporally Weighted Linear Prediction Features for Tackling Additive Noise in Speaker Veri?cation[J]. IEEE Signal Processing Letters, 2010, Vol. 17, No. 6, pp: 599-602.
  [4] 单进, 芮贤义. 基于压缩感知的稳健性说话人识别[J]. 语音技术, 2011, 35 (2): 61-63.
  [5] Tobias May, Steven van de Par and Armin Kohlrausch. Noise-Robust Speaker Recognition Combining Missing Data Techniques and Universal Background Modeling[J]. IEEE Transactions on Audio, Speech, and Processing, 2012, Vol. 20, No. 1, pp: 108-121.
  [6] 张伟伟. 说话人识别技术的研究[M]. 河北: 燕山大学, 2010.
  [7] 严凯. 基于高斯混合模型的说话人识别算法研究[D]. 南京: 南京理工大学, 2009.
其他文献
“千米经济”能给大学生生活带来便捷,为想要自主创业的大学生提供机遇,也容易让大学生生理上产生健康隐患、心理上造成依赖、人际交往上出现交往障碍等行为认知的偏差。大学
摘要:作者在长期语文教育教学实践中不断总结思考对课堂提问这一基本教学方法的创新性使用。文章以课堂提问法在调动学生学习积极性,加快学生掌握新知识的速度,促进教学相长,调节学生情绪等四个方面论述这一教学方法重要的实践意义,并从有效课堂提问应注意的主题明确、引导有力、循序渐进、符合规律等角度以及如何进行提问设计阐述了在操作层面上思考。  课堂提问作为一种有效的教学手段,对于语文课来说,有特别重要意义,笔
企业中层管理者是介于企业高层管理者及基层员工的中间环节,是连接二者之间的桥梁和纽带,他们既是执行者又是领导者,既是指挥员又是战斗员,是“官”和“兵”的统一,在企业中不仅承
旅游英语专业强调实践性和操作性。现有的实践教学环节存在着种种问题,不能系统地提高学生的动手能力,严重影响了人才培养的质量。认知实践、课内实训、顶岗实习和职业技能培训
设备物资管理在矿山企业管理中占据了十分重要的地位,它能够有效地降低生产成本,加强工作效率。但是,现在我国矿山物资管理中还存在很多的不足,对矿山企业物资管理的有序运行
在19世纪的英国浪漫主义文学中,鸦片是一种象征着东方乃至中国的深化,它具有似是而非的东方性,中国形象通过这种鸦片幻梦将东方性展示出来,鸦片—幻梦—中国形象成为有关东方
本田思域讨人喜欢的原因有很多种,在多种车型的基础上,40余载的历练与物有所值的均衡都可能成为它受宠的理由。现在,这个经典车系的全新第十代车型终于出世,不同于简单的调整改良,这是一次彻底的基因重组。  00:41  相比前代车系,全新思域的外观设计显得更加大胆、年轻化,激进的前脸配以流畅的车身线条,极大地提升了整车运动感。值得注意的是,新一代车型较上一代车型增宽了约50mm、车身高度降低了25mm,
现在有不少企业都存在着这样的弊端,即他们在定制企业标准时,没有结合自身的特点和结构加以分析,而是生搬硬套直接或间接的参照国家标准进行修改,然后变成了本企业内部标准。这样
计量检测工作是一项科学性、法制性、政策性的工作,计量检测工作也是保证社会经济贸易活动稳定正常运行的基础性的工作,因此提高计量检测工作对提高质量、加强技术基础、推进与
摘要:土建结构工程的耐久性与工程的使用寿命,是使用期内结构保持正常功能的基础,正常功能包括结构的安全性和适用性,而且较多地体现在适用上。为了保证结构的安全性和耐久性,土建工程在建成后的使用过程中,应该进行定期检测和维护。本文分析了土建工程的耐久性现状,并提出提高耐久性的措施。  关键词:土建工程;耐久性  土建结构的耐久性是当前困扰土建基础设施等工程的世界性问题,但是至今尚未引起我国政府主管部门和