论文部分内容阅读
说话人识别是模式识别的一种,它用语音信号和预先提取的说话人特征作为生物特征,确定或鉴别说话人的身份,符合当今信息化时代对身份验证的需求.人们已经认识到,语音信号中存在着非线性性质,而神经网络技术具有任意非线性逼近能力,自然成为话者识别研究中的一个重要方法.从模式识别角度看,目前国际上绝大多数的研究都集中在各种神经网络方法上,特别像具有分类特征的径向基核函数(RBF)神经网络.RBF神经网络中隐层的训练过程属于一个聚类过程,聚类的好坏直接影响了神经网络的执行效果,目前基于目标函数的模糊K-均值算法(FKM)是应用最广泛的模糊聚类算法.本文提出了一种先进的聚类算法--基于两级自适应遗传算法(MTLAGA)的聚类方法,试图同时解决模糊K-均值算法对中心点数目以及初始中心位置敏感的两大问题.针对说话人特征的复杂分布,提出了扩展的RBF神经网络--椭圆基核函数(EBF)神经网络,充分利用EBF网络的全协方差矩阵对复杂分布的表征能力,并将MTLAGA聚类算法作为EBF神经网络隐层参数的确定方法,形成本文话者确认的方法.本文通过文本独立的话者确认实验,证实了采用MTLAGA聚类算法的EBF神经网络大大提高了说话人识别率.相比较采用FKM聚类算法的EBF神经网络,基于MTLAGA聚类算法的EBF神经网络获得了更高的识别率,证明针对复杂分布的说话人特征的聚类,即使在已知聚类中心点数目的情况下,不恰当的初始中心易使FKM算法陷入局部极小点,而MTLAGA聚类算法利用遗传算法全局优化的特点,克服了FKM算法的这种缺陷.另外,将基于RBF神经网络的说话人确认与基于EBF神经网络的说话人确认进行比较,发现全协方差矩阵对复杂分布的样本表征能力更强,识别率更高.与一种统一聚类中心的算法相比,本文提出的算法不仅获得了比前者更高的识别率,同时得到更大的分辨阈值,说明不同话者说话特征不尽相同,不应采用统一的聚类中心方法.