论文部分内容阅读
声纹同指纹、掌纹和虹膜等一样,是每个人特有的生物特征,从某种意义上说也是人体的一张“身份证”。声纹识别作为一种新的生物特征识别技术,以其独有的经济、方便等优点在司法刑侦、系统安全认证、电话银行、国防安全等领域得到了广泛地应用,特别是在语音通信中的关键说话人检索及身份验证具有独一无二的优势。一个基本的声纹识别系统包括说话人特征提取和模式匹配两大部分。特征提取是指如何快速的从大量语音信号中,提取出最能代表说话人个性的有效且稳定可靠的特征参数;模式匹配则是指在提取特征参数后,训练时采用某种方法为说话人建立相应的模型或模板,在识别时则把未知信号与已有模型进行某种相似距离判断并出结果。
本文在分析了声纹识别常用的相关原理与技术基础上,重点研究了基于Mel倒谱系数(MFCC)的特征参数提取和矢量量化(VQ)的建模方法,并针对其中的某上不足之处进行相应地改进。最后在基于ARM9和WinCE嵌入式平台上实现了一个小容量的声纹识别系统。在前人的基础上,本文的相关改进工作主要包括以下三个方面:
1.特征提取方面:对目前应用最广泛的标准MFCC存在的不足,进行相应改进,提出加权差分组合MFCC特征参数。用短时帧能量和短时加权过零率代替MFCC中有负识别作用的第1、2阶分量,并根据MFCC中各分量的不同贡献率进行加权,然后进行一阶差分,最后将其组合构成新的特征参数。
2.矢量量化方面:采用码本分裂法的LBG算法进行最佳码本设计,对计算过程中产生空胞腔的问题,使用最大胞腔分裂法进行优化处理,以提高算法效率和码本质量。此外,对正确的识别结果加入手动更新码本这一步,一方面相当于增加了训练量,另一方面在某种程度上实现了码本的自适应性。
3.嵌入式系统实现方面:针对嵌入式系统资源相对有限的条件,在实现过程中进行了一些优化处理。包括WinCE操作系统的优化定制与移植;采用短时帧能量和短时加权过零率双门限进行有效语音端点检测以减少计算量;对于需复杂运算的帧能量、距离测量及差分计算等,采用相对简单计算方法等。
最后对系统进行了相关的实验测试,实验结果表明,系统对相同文本内容的识别具有较高的识别率,对文本无关的识别率则有待提高:采用改进后的特征参数,系统的平均识别率提4%左右。