论文部分内容阅读
随着互联网时代的到来,以及大数据的发展,每天接受的信息大幅增长,这些信息中包含着电话通信、电视和网络等语音信息,同时随着科技的不断发展和电子设备的大量普及,有声邮件、语音搜索等在日常生活中扮演着越来越重要的角色。面对这些如雨后春笋般出现的信息,如何从中有效提取有用的信息,是目前研究的难点和热点。说话人分割聚类融合了多种音频处理技术,并能够实现对说话人类别和说话内容的精确管理,因此说话人分割聚类技术引起了众多学者的兴趣,比如麻省理工、法国LIMSI、剑桥、伯克利等已经展开研究,且取得了一定成果,但是说话人分割聚类中仍有几大难点难以解决,比如复杂场景下建模不准确、短时语音段表示不准确、聚类效率慢以及说话人数目确定困难等,本文针对这些问题展开研究,具体内容为以下几个方面:针对复杂场景下建模不准确的问题,论文将有监督的建模方法应用到说话人分割聚类中,利用深度神经网络替代传统建模方法提取语音信号中深层次的复杂信息,将输出节点中的音素状态作为建模初始类别数,并和全差异建模相结合,从而使音素特征和说话人特征有效地解耦,最终得到对语音段更加鲁棒性的表示,从而提高系统性能。对于短时语音段表示不准确的问题,论文提出了构造基于深度神经网络的说话人类内短时语音段差异建模的方法,通过对存在差异的短时语音段进行有效建模,补偿语音段之间的差异,减少干扰信息的负面影响,从而使得低维因子向量准确的包含语音段中的说话人信息,从而使得短时语音段能够更加准确地被表示。为了能够实现高效建模的目标,提高聚类效率,论文用谱聚类的方法代替原有的层次凝聚聚类,通过计算语音段间的距离,构造基于距离的关联矩阵,利用改进的Eigen gap方法寻找最优的聚类数目,确定语音段中的说话人数目,根据已经确定的类别数,通过对关联矩阵特征结构分布的分析,对分割后的语音段进行聚类。谱聚类的方法不仅解决了说话人数目难以确定的问题,而且聚类速度高于传统的层次凝聚聚类方法。利用本文提出的三种方法,能够有效解决目前说话人分割聚类中存在的难点,通过实验结果可以表明,系统性能有大幅提升。