与文本无关的嵌入式声纹识别门禁系统

来源 :吉林大学 | 被引量 : 0次 | 上传用户:wangchaofmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,生物特征识别技术因其良好的安全性越来越多的应用于身份识别。生物识别技术是利用人类自身生理或行为特征进行身份验证的一种解决方案,具有不可复制的特性。人体的生物特征包括指纹、声音、人脸、视网膜、虹膜、掌形、手掌静脉、骨架等等。所谓的生物识别的核心在于如何获取这些生物特征,并根据标准进行判决。语音是人类交流信息的基本手段,语音信号是个人的固有特征,随着信息科学技术的飞速发展,语音处理技术在最近20年中取得了突破性进展。语音信号的处理技术有几大分支----语音识别、语音合成、语音编码等。其中语音识别包含两个方向:声纹识别和语音内容识别。声纹识别分析的是说话人的语音的个性特征,从而识别出的结果是哪一位讲话者。他强调的是不同人之间语音信号本身的特征差异。声纹识别又可分为说话人辨认和说话人确认两种。前者是判定某一待识别的语音样本是语音库中哪一位的语音。后者是判定某一个待识别的声音“是或者不是”某一特定说话者的语音。其输出只有两种结果(是该说话人或者不是的二元判决)。语音的形成过程是与发音器官的运动密切相关的,这种发音器官的物理运动比起语音频率来讲要缓慢的多,因此语音信号常常可假定为在很短时间内是平稳的。语音识别的各种算法都是基于这种假设之上的。本文在对传统声纹识别方法研究的基础上开发了一个嵌入式与文本无关的声纹门禁系统。该系统用C语言编写,使之具有更好的可移植性。根据门禁系统得特点,本系统采用了声纹识别技术中说话人确认技术。本系统的主要流程包括预处理、声学参数分析及特征提取、模板形成、测度估计、判决等步骤。预处理包括:采样和量化、预加重滤波、加窗分帧、计算时域、频域参数、端点检测等。本系统利用双缓冲区技术实时采集语音样本,每秒采样8000次。得到采样值后将语音信号通过一个一阶高通滤波器 1-0.9375z-1 ,即预加重滤波器。它的目的在于滤除低频干扰,对于高频部分的频谱进行提升还可以起到消除直流漂移、抑制随机噪声的效果。为样本序列加窗分帧,每240个采样点合为一帧,帧移为80。并为每帧计算过零率与短时能量参数,根据经验阈值进<WP=53>行端点检测。现在语音识别方法中大多用LPCC和MFCC参数作为特征参数,根据前人的研究成果可知,对于声纹识别而言,MFCC参数载荷了更多的说话人个性特征,所以本系统也采用了MFCC参数作为特征参数。并根据实验结果可知MFCC的一阶差分参数更多的体现的是与文本相关时前后语音帧的特点,所以本系统并不采用差分参数,只为每帧提取16维MFCC参数,得到参数序列。本系统采用隐马尔科夫模型为说话人训练模板。HMM的应用是20世纪80年代以来语音识别领域取得的最重要的成果。HMM一方面用隐含的状态对应于声学层各相对稳定的发音单位,并通过状态转移和状态驻留来描述发音的变化;另一方面它引入了概率统计模型,用概率密度函数计算语音参数对HMM模型的输出概率,通过搜索最佳状态序列,以最大后验概率为准则找到识别结果。所以,HMM模型较为完整的表达了语音的声学模型,并且采用统计的训练方法将底层的声学模型和上层的语言模型融入统一的语音识别搜索算法中,可以获得较好的效果。HMM的具体训练流程为:首先为状态参数设置初值,然后利用Viterbi算法为输入的语音参数序列计算输出概率,根据此输出概率利用Baum-Welch算法重新设置状态参数,并判断模型是否收敛,不收敛则重复进行。本系统对传统的Baum-Welch模型训练算法进行了改进:先对语音信号特征矢量进行状态分割、动态聚类,再运用模糊统计的方法寻找出B参数,然后进行迭代重估。这样较之凭经验反复对比设置的B参数更为有依据、有效果,不但可以减少迭代次数,更重要的是在一定程度上避免了模型发散和参数收敛到全局最优点,降低了运算量和存储量。在HMM模型训练过程完成以后,测试语音利用Viterbi算法计算出了其对于收敛模板的输出概率,本系统就以此概率为距离测度,通过对该概率与预先设置的阈值作欧式距离进行判决。本系统的判决方法采用了一种多方法多门限关联技术。“多方法”即利用多方法序贯识别,本系统采用了端点检测时得到的平均过零率、平均短时能量以及HMM三种方法串联判决。这样不仅可以提高系统效率,而且跟任一方法单独使用相比系统的误识率都会得到降低,但在一定程度上系统的拒识率会加性升高。这种误识率与拒识率的矛盾很难解决。为此本系统又采用了多门限关联技术。由于每种方法判决都需要设置阈值,本系统根据输入的多个语音样本序<WP=54>列自动计算出高低两个阈值,后一种方法采用哪个阈值是与前方法的判决结果有关,换句话说,在前一种方法下测试语音与模板相似度越高,下一级方法需要的阈值就越低。根据实验结果来看,这种技术部分解决了误识率与拒识率的矛盾,使二者都达到了满意的结果。虽然本系统得到了较好的实验结果,但距离实际应用还相差较远,有很多方面并不完善:通过实验可知模版的“好坏”对识别结果有决定性的影响。所谓模版“坏”是指说话人录入的十条用作训练的语音样本必须完全反应说话人最正常情况下的说话特点,如果不能则
其他文献
移动Ad hoc网络使得用户"随时随地(Anywhere,Anytime)"都具备网络能力,具有传统有线网络无法替代的优势,在许多军事和民用事业中有着广阔的发展前景.由于移动Ad hoc网络中的
蛋白质的研究是生命科学研究的基础和重大核心问题之一。对于蛋白质结构的研究,一直是热门的课题。研究蛋白质的功能要深入了解它们的结构,特别是空间结构,因为结构决定功能。生
学位
随着各种高性能移动终端设备的涌现,通信技术和互联网技术的相互渗透,移动性已经成为因特网发展的内在要求。移动IP技术为这两大技术的最终融合奠定了基础。但是基本移动IP协议
随着软件规模的日益扩大,软件系统的复杂性不断增加,传统的软件可靠性设计在实际的应用中存在的问题愈显不足。具备自适应地处理资源变化、用户需求改变和系统故障的能力成为保
随着机器翻译的发展,机器翻译评价也越来越受到重视.机器翻译评价是一项复杂的研究课题,最主要的困难在于评价指标的确定.如何评价一个机器翻译系统好与坏,如何在多个翻译系
目前人脸检测算法研究得已经相当深入,但对于复杂背景下的人脸检测仍难以取得较好的效果.基于灰度图的方法,虽然其应用范围最为广泛,由于其信息量的缺乏,以及光照和对比度等
近年来,基于非结构网格的数值模拟已经成为国际上油藏模拟的一个重要发展方向,也是下一代油藏模拟软件不可或缺的重要功能之一.本文基于中心已有工作,对非结构网格油藏数值模
软件质量作为软件产品的一个重要属性,引起人们的重视,特别是那些关系到国计民生的行业,尤其是航天型号软件对软件的质量有极高的要求.软件质量可以通过额外的软件测试来评定
税收网上申报是指纳税人将有关纳税申报的电子数据,通过计算机网络传递给税务机关,完成纳税申报手续的工作。它利用计算机、互联网等先进手段,使纳税申报更加方便、快捷、高效。