论文部分内容阅读
说话人分割聚类技术是近几年语音信号处理研究的一个热点方向,它主要回答“谁在什么时间说话”的问题。目前,这项技术在多说话人识别、说话人检索和自适应语音识别等领域得了广泛的应用。 为了进一步推动说话人分割与聚类研究的发展,本文从说话人变换点检测技术的融合、说话人分割音段的快速聚类、说话人自动聚类数目估计和重叠语音检测,以及基于深层神经网络的说话人因子特征提取等几个方面对说话人分割与聚类的关键技术进行研究,主要的研究成果包括以下几个方面: 1.提出了基于融合技术的说话人变换点检测方法。为了解决单一技术的说话人变换点检测算法的局限性,进一步提高变换点检测正确率,本文提出了基于级联融合和并联融合的说话人变换点检测方法。通过在NIST1998语音库上的实验表明,本文所提的方法使说话人变换点检测的性能有明显提高。 2.提出了用于说话人超矢量特征的基于改进谱聚类的说话人聚类算法。首先,为了提高分割后说话人音段聚类的速度和稳定性,本文在语音的超矢量特征空间,提出了基于改进谱聚类的说话人聚类算法。其次,为了解决说话人数目未知的问题,在谱聚类的计算过程中,本文根据本征间隙方法来估计说话人数目。最后,本文利用辨别成分分析算法对语音的超矢量特征进行变换,提取说话人的辨别性因子特征,进一步提高了说话人数目估计的正确率,进而提高说话人聚类纯度。在NIST1998数据库和TIMIT语音构成的多说话人数据上的实验结果表明,本文所提的说话人聚类算法较经典算法在计算效率和稳定性方面有一定的提高,且所提取的辨别性的说话人因子特征能使说话人数目估计的正确性提高16%,同时提升了说话人聚类的纯度。 3.提出了基于高层信息特征的重叠语音检测方法。在说话人分割聚类的研究中,重叠语音的存在大大影响系统的性能,为了提高说话人分割性能,本文利用语音中的高层信息特征训练HMM,并用其检测重叠音段。首先,以语言学知识为指导,利用通用背景模型提取语音中类语言学信息的声学特征,定量分析所提取的特征对重叠音和非重叠音的区分性能,其次,利用所提特征融合MFCC特征建立HMM模型,通过Viterbi解码检测语流中的重叠语音段。实验结果显示,所提方法使重叠语音检测的错误率降低了22.7%,而且经重叠语音检测后,说话人分割的性能也有一定的提升。 4.提出了基于辨别性深层信念网络的说话人分割方法。由于语音信号中包含语音内容、说话人信息和情感信息等复杂成分,所以常用的语音特征无法明显区分不同说话人类别,致使说话人分割效果不佳。鉴于此,本文提出了利用Fisher准则训练辨别性深层信念网络,用其从语音的超矢量特征中提取辨别性的说话人因子特征,并通过K-means聚类得到每帧语音的类别标号,从而实现对说话人分割的目的。在TIMIT数据库生成的多说话人语音数据上的实验表明,所提方法对说话人分割的性能明显高于经典BIC算法和基于普通深度信念网络的方法。 5.提出了采用边信息训练稀疏性神经网络的说话人分割方法。在语音信号的特征中,说话人特征具有较强的稀疏性的特点,非说话人信息的存在影响说话人分割和聚类的性能。本文提出了采用输入样本类别标号的边信息训练稀疏单隐含层神经网络和稀疏深层神经网络的算法,用它分别从语音的超矢量特征中提取稀疏性的说话人因子特征,并利用K-means聚类获取每帧语音的类别标号,进而从连续语流中分割不同的说话人。在TIMIT数据库生成的多说话人数据上的实验结果显示,所提两种稀疏神经网络方法对说话人分割的F1指标而言,比经典BIC方法分别提高了12.6%和8.9%,性能明显优于对应的一般稀疏神经网络方法。