论文部分内容阅读
随着便捷式录音设备(特别是智能手机)的普及,人们录制的音频数据呈爆炸式增长。如何有效鉴别上述音频数据的录音设备是目前数字音频取证技术的研究热点之一。本文以手机录音作为分析对象,探讨基于语音深度特征的手机聚类方法。主要工作及创新点如下:(1)提出一种基于深度高斯超矢量(Deep Gaussian Supervector,DGS)的手机聚类方法。首先从每个录音样本中提取梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)特征,并输入深度神经网络(Deep Neural Network,DNN)从而提取瓶颈特征(Bottleneck Feature,BF)。然后,采用所有录音样本的BF构建一个通用背景模型(Universal Background Model,UBM),并采用最大后验概率(Maximum A Posterior,MAP)算法为每个录音样本自适应生成一个高斯混合模型(Gaussian Mixture Model,GMM),再将每个GMM的均值矢量依次拼接成一个高斯超矢量作为该录音样本的深度特征,即深度高斯超矢量特征。最后,采用谱聚类(Spectral Clustering,SC)算法对各录音样本的深度高斯超矢量进行聚类,将相同手机录制的录音样本聚为一类。使用MOBIPHONE手机录音数据库作为实验数据集,以K值(平均类纯度和平均手机纯度的几何平均值)、归一化互信息量(Normalized Mutual Information,NMI)和聚类精度(Clustering Accuracy,CA)作为性能评价指标,实验讨论DNN结构设置,比较不同特征的聚类性能。实验结果表明:深度高斯超矢量在手机聚类时的K值、NMI和CA分别为93.81%、95.11%、96.75%,均高于其他特征的对应值,说明本文所提取特征是有效的。(2)提取(1)中的深度高斯超矢量特征时,方案假定已经预先知道用于训练DNN的录音样本标签,但在实际手机聚类时该先验信息有时不能获取。为了克服上述不足,提出一种基于深度表征(Deep Representation,DR)的手机聚类方法。该方法采用深度自编码网络(Deep Autoencoder Network,DAN)代替DNN提取瓶颈特征,无需关于手机的任何先验信息。本工作以三个手机录音数据库作为实验数据,讨论DAN隐层参数设置,并比较不同特征、算法的聚类性能。实验结果表明,DR特征的性能略差于(1)中提取的DGS特征,但优于其他特征。相比于DGS特征,DR特征的优势是:它在提取时无需手机的任何先验信息。另外,本聚类方法优于基于凝聚分层聚类的无监督方法但稍差于基于支持向量机(Support Vector Machine,SVM)的有监督方法。最后,讨论本方法在录音样本的数量不对称、来自相同手机型号、来自相同说话人等特殊条件下的性能表现。实验结果表明,本方法在上述条件下也有较好的表现。综上所述,本文以手机录音作为分析对象,基于深度学习技术提取刻画手机内在特性的深度特征,提出基于语音深度特征的手机聚类方法,从多个侧面实验分析本文方法的性能表现,并与文献报道的方法进行比较,验证本文方法的有效性。