论文部分内容阅读
说话人识别是一种生物特征识别技术,它是指机器通过说话人的语音自动识别出说话人的身份。在信息接入服务安全控制、司法鉴定、金融服务、电子侦听和人机界面智能化等领域这项技术具有良好的应用前景。说话人识别主要经过三个阶段来实现——提取特征、建立说话人模型、判决。特征提取阶段是第一步,也是非常重要的一步。如果不能提取充分反映说话人个性特征的特征量,后两步的优化就很难奏效。现有特征提取方法大都是建立在把语音信号当作短时平稳信号的认识基础上的,这些特征用于说话人识别取得了较好的效果,但是人们在设法进一步提高系统的识别率和鲁棒性时发现了它的局限性。针对这种情况,本文基于当前非线性动力的混沌、分形数学在许多物理现象特别是语音信号处理中的应用,提出采用动力系统模型分析语音信号,抽取混沌、分形特征描述语音信号,并且将这些特征应用于说话人识别,探讨非线性参数区别不同人的声音的有效性,以进一步提高说话人识别的正确识别率。本文首先深入分析语音信号的混沌机理。由自相关函数确定延迟时间,用虚假近邻法确定嵌入维数,据此重构相空间。根据实验数据计算汉语38个音素的最大Lyapunov指数,其数值均为正值,验证了语音信号的混沌性。在此基础上研究非线性动力学在说话人识别中的应用,取得的创新研究成果可归纳如下:(1)基于Kolomogorov熵和广义维数、关联维数之间的联系,利用GP相关算法实现语音信号关联维数的计算,并得到Kolomogorov熵和广义维数的计算方法,使语音信号的各种非线性参数的计算统一起来。(2)提出用广义维数Dq为说话人的特征参数,进行说话人识别。广义维数作为多维矢量比其他研究成果中使用的单一的一维分形维数更详细地描述了语音信号的非线性特性。在与文本无关的实验中,对Dq采用马氏距离,并结合其一次差分和二次差分,明显提高了说话人辨认的正确识别率,表明了广义维数作为说话认识别特征的有效性。还进一步讨论短时帧长度对估计Dq的影响,适当增加帧长使识别率得到提高。与采用传统特征参数的说话人识别进行了对比实验,显示出广义维数能够区分不同的说话人,可与传统参数结合起来共同完成识别任务。