论文部分内容阅读
说话人识别技术是一种通过对目标说话人的语音进行处理与分析,从而判断出该说话人身份的技术。目前,说话人识别作为人与计算机进行交互的一种智能接口有着非常广泛的用途,它具有方便快捷、经济可靠和扩展性好等许多优点,已经被广泛用于远程身份验证,同时在军事和医学领域,尤其是基于电信网络的身份识别应用,说话人识别技术的前景同样非常广阔。如何有效地对说话人语音进行相似度判别,是目前说话人识别研究领域非常重要的关键问题之一。模式识别领域中,样本间相似度的衡量方法有很多,其中常用的方法有距离打分法,如余弦距离打分(cosine distance scoring)和马氏距离打分(Mahalanobis distance scoring)等。目前最流行的基于i-vector模型的说话人识别系统常用余弦距离来衡量说话人语音间的相似度,余弦距离打分法根据样本向量间的夹角来判断样本间的相似度,难以衡量样本在量上的区别。马氏距离打分法根据投影在能真实反映样本相似性的样本空间中的新样本向量间的欧氏距离,来衡量样本间的相似度。用于投影到样本空间的映射矩阵称为度量矩阵,它可用于描述样本空间的相似性。不同的度量矩阵描述的样本空间也不同,只有得到正确的度量矩阵,通过其计算出来的马氏距离才能真实的反映样本间的相似性。度量学习根据训练样本含有的信息,通过自动学习得到一个距离度量矩阵,常用于计算目标样本间的马氏距离,从而对未知数据的相似度进行预测。本文主要工作和创新如下:(1)本文对Cao等提出的子空间相似性度量学习(Subspace Similarity Metric Learning,SUB-SML)算法中的子算法(Subspace Metric Learning,SUB-ML)进行改进,根据相似训练样本对与非相似训练样本对在度量学习训练过程的影响程度进行加权约束,提出加权成对约束度量学习(Weighted Pairwise constraint Metric Learning,WPCML)算法。该算法利用成对训练样本的约束信息训练一个用于描述样本空间相似度的度量矩阵,用来计算i-vector语音样本间的马氏距离。该算法的原理非常直观,而且简单有效,目标函数的最优化求解能得到全局最优解,并能迅速求得满足设定条件的度量矩阵,而用于训练的样本对只需知道其是否属于同类。美国国家标准技术局(NIST)说话人评测(SRE)2008年数据集上的实验结果表明,WPCML算法训练度量矩阵用于马氏距离相似度打分的分类性能优于余弦距离相似度打分。(2)训练样本对集的构造是度量学习研究中的一个重要问题。合适的训练样本对含有的有效信息更能正确指导训练过程。大部分度量学习算法采用随机构造的方法来构造度量学习训练样本对集。本文对训练样本对集的构造方法进行研究,提出选择训练样本对法构建度量矩阵训练样本对集。选择训练样本对方法用于度量学习训练样本集的构造能进一步提高系统实验性能,并优于目前最流行的PLDA分类器。