论文部分内容阅读
说话人分割聚类是对一段多人混合的连续语音自动切分,获得"什么时候谁在说话"这个信息的技术。当前在两人电话对话数据上,说话人分割聚类系统取得了很好的性能;但是在会议、电视广播多人对话等复杂场景下还是面临着很多挑战,存在的问题包括:一般说话人数不定且没有人数的先验信息;说话人交谈时轮换快,每个说话人的语音长度不定;语音中存在着多种多样的噪声等。如何有效的解决这些问题,提升分割聚类系统的鲁棒性成为重要的研究方向,也是本文主要的研究内容。本文针对电视多人访谈节目中说话人分割与聚类的问题进行研究,论文的主要工作和创新如下:第一,主流算法的融合改进。在论文第二章中,在典型的分割聚类算法的基础上,采用深度神经网络(Deep Neural Network,DNN)取代传统的贝叶斯信息量的方法来实现语音的分割,由于DNN强大的区分能力,提高了变化点检测的准确率;在聚类方面,采用了共识聚类的方法对多套系统进行融合,提高了类别的纯度,加强了初始模型的鲁棒性,从而降低了系统的错误率。第二,噪声环境下特征降噪。在论文第三章中,利用回归深度神经网络(Re-gression DNN)去拟合带噪音频的声学特征到干净音频的声学特征的映射函数,用这个回归网络提取出降噪后的特征削弱了噪声的信息,将该降噪特征用于分割聚类系统,降低了系统的错误率。进一步,利用共识聚类对降噪特征和原始特征系统进行融合,显著的提升了系统的性能。第三,时长鲁棒的类别模型训练算法。多说话人场景下,每个说话人的语音长度是不定的,在论文第四章中,针对传统的最大后验估计(Maximum A Posteriori,MAP)得到的类别模型受类别时长的影响导致模型参数偏移的问题,提出在MAP过程中,对相对因子根据时长进行规整,提高类别模型参数的时长鲁棒性。实验结果表明,对于归一化交叉似然比(Normalized Cross Likelihood Ratio,NCLR)和T-Test度量距离,规整后的类别模型带来了性能的提升。第四,高区分性的人数判定算法。在论文第五章中,围绕人数确定进行研究。在门限法确定人数的基础上,采用Ts准则确定人数,该准则无需在开发集设定门限,实验结果表明,Ts准则和门限法融合提升了人数确定的准确率。另外,将估计的语句类间类内分布的均值与开发集门限相结合,设定自适应的门限,提高了人数确定准确率。最后,提出一种改进的T-Test度量距离,改进的方法详尽的利用了似然比得分分布的统计信息,更具区分性,从而在人数确定上更加准确。