论文部分内容阅读
近年微信在人们的手机应用中占据了越来越重要的地位,成为很多人社交的首选应用软件,它是专门给我们常用的手机、电脑等终端提供通讯服务的应用软件,人们能够运用它快速地发送图片、语音、视频及文字来分享生活及交流,只消耗网络流量而无需通过运营商收取通讯费用。但随着信息时代的来临,计算机、通信技术等高科技技术在我们的日常生活中随处可见,让我们的生活变得更加便捷与多彩,但随之而来的问题也造成了很多人的困扰。各种卡片必须随身携带,复杂绕口的密码太难记忆,卡片丢失、密码被盗也频繁带来安全隐患和财产损失。这也给微信的使用带来了安全隐患,如果手机落入他人手中,就有可能会被模仿机主声音骗取他人信任,以实施不法行为造成危害,个人隐私保密问题迫切需要解决。而生物识别是生物学和信息学等技术的结合,使得身份鉴定变得更加安全、方便且不需要记忆,帮我们解决了这一难题,它主要是通过运用生理和行为这种与生俱来的特征来实现身份的识别。声纹识别也属于生物识别,它具有获取方便、使用简单、识别成本低、可远程操作等优势,是唯一可以进行远程身份确认的生物识别技术。被广泛地应用于各种生活中需要身份认证的场合领域中。当前中国对声纹识别技术运用尚处于初始阶段,发展潜力具大。有了声纹识别,微信用户就可以在需要的时候通过语音确定对方身份,确保自身利益不受损害。本文分别对声纹识别的几个模块——预处理、特征提取、模式匹配、识别判断进行了阐述,并重点对声纹识别的模式匹配算法进行了研究。声纹识别模式匹配的算法有很多,如动态时间归整(DTW)、人工神经网络(ANN)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)等,由于DTW识别率低,ANN训练时间较长,HMM训练计算量较大,为了提高识别正确率和识别效率,本文选择当前非常流行的声纹识别技术高斯混合模型(Gaussian Mixture Model,GMM)作为建模方法。通过GMM的离散组合利用协方差矩阵和均值来表征高斯函数,从而得出GMM[1-2]。由于高斯混合模型GMM对语音声学特征分布有较好的拟合特性,基于最大似然决策的GMM方法已经成为说话人识别系统的主流方法[3]。它是高斯概率密度函数的延展,因此可以很好地模拟出各种不同形状的密度分布。在声纹识别的训练阶段求参数集时本文运用了EM算法,而在识别阶段模式匹配时本文利用MAP准则加以实现。在计算初始值时本文对比了LBG算法与K均值算法对系统识别率的影响,为了克服识别性能参数的矛盾性本文还提出了一种联合判决门限决策。分别做了不同特征参数、初始点、端点检测、门限值及模式匹配算法对识别性能影响的实验,结果表明选取MFCC特征参数及LBG算法求取初始点能够得到更高的识别率,本文所设计的联合判决门限很好地解决了误识率与虚警率的矛盾,GMM及GMM-UBM模型都有很好的识别效果,当训练模型较少时,GMM-UBM具有更大优势,同时它们的识别都会随着高斯混合数的增加而增加,当达到32时系统识别性能最优;LBG算法压缩比大且失真较小,更有利于取得一个好的识别效果。