论文部分内容阅读
说话人识别技术在近年来已成为既有巨大吸引力而又有相当难度的研究热点。说话人识别(Speaker Recognition)是从说话人发出的语音信号中自动提取说话人信息,并对说话人进行识别的研究。它有别于语音识别,其目的不是识别说话的内容,而是对说话人的身份确定,即系统对说话者是谁而做出判断的研究。本文主要为与文本无关的说话人识别系统的研究。主要的研究工作:对于已建立的语音库中样本进行预处理,其中包括对语音样本进行预加重、分帧、加窗、端点检测等语音信号处理工作。其中重点研究双门限端点检测的方法,并完成了其程序的设计到算法实现。经过预处理工作,减少了数据量,一定程度上降低噪声干扰,为后续工作的实现和分析打下良好的基础。研究了传统的线性预测系数(LPC)、线性预测倒谱系数(LPCC)、Mel频率倒谱系数(MFCC)的特征提取办法及线性预测Mel频率倒谱系数(LPMCC)和MFCC、MFCC的一阶差分、二阶差分结合短时帧能量构成(3Q+1)维特征参数的两种改进算法。实验求取特征参数,通过可分性测度D值分析,初步评价比较这五种的特征提取办法。数据显示改进后的特征参数较传统的特征参数有较高的D值,更有利于识别。应用隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)四种识别方法,对特征参数进行识别,构建说话人识别系统。通过实验研究,进一步证实改进后的特征参数在系统识别率上明显优越于传统的特征参数。并比较分析四种识别方法,其中人工神经网络(ANN)和支持向量机(SVM)的在识别效果上要比传统的隐马尔可夫(HMM)和矢量量化(VQ)更好。