论文部分内容阅读
汉语耳语音话者识别可应用于国家安全的某些特殊需要、电话银行、特殊场合的身份确认、公众场合下的通讯等方面。它是一个全新的课题,有许多问题亟待解决。
本文介绍了耳语音的生理、声学和感知特点,指出共振峰位置与感知特性的变化是耳语音与正常音一个主要的差别。为了解决耳语音话者识别问题,就应修正这些差异。
本文通过滤波器组分析的方法研究了耳语音的频率特性。通过3个评估函数(F比、识别率和主分量分析),研究表明对于耳语音话者识别第一、三共振峰所起的作用远大于其他共振峰。研究结果为耳语音话者识别研究奠定了基础。
根据耳语音的频率特性与感知特性,本文提出了包括MFCC<,M>,MFCC<,Exp-Log>,WSCC与WWCC在内的一系列特征参数。这些参数具有高性能,鲁棒性好的优点。实验表明新的参数可以有效地提高耳语音话者识别系统的性能。
对于话者识别,隐马尔科夫模型往往需要大量的训练数据。但是在一些特殊的应用中,这个要求难以实现。因此本文提出了正弦变化的变帧率训练来解决这个问题。我们将这个方法应用于耳语音话者识别系统中,在训练样本数仅为识别样本数1/4的情况下,系统的识别率有所提高。实验表明这种方法在一定程度下解决训练样本不足的问题。
对于话者识别研究,某些特征参数之间对于话者识别存在着一定的互补性。基于概率论与隐马尔科模型理论,本文提出了一种称之为最优参数法的有效结合各特征参数优点的方法以及修正隐马尔科夫模型。实验表明通过这两种方法来综合利用WSCC、LPCC以及其一阶差分系数建立的耳语音话者识别系统要优于传统的话者识别系统。