基于语音深度特征的手机聚类方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:gang_zai1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着便捷式录音设备(特别是智能手机)的普及,人们录制的音频数据呈爆炸式增长。如何有效鉴别上述音频数据的录音设备是目前数字音频取证技术的研究热点之一。本文以手机录音作为分析对象,探讨基于语音深度特征的手机聚类方法。主要工作及创新点如下:(1)提出一种基于深度高斯超矢量(Deep Gaussian Supervector,DGS)的手机聚类方法。首先从每个录音样本中提取梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)特征,并输入深度神经网络(Deep Neural Network,DNN)从而提取瓶颈特征(Bottleneck Feature,BF)。然后,采用所有录音样本的BF构建一个通用背景模型(Universal Background Model,UBM),并采用最大后验概率(Maximum A Posterior,MAP)算法为每个录音样本自适应生成一个高斯混合模型(Gaussian Mixture Model,GMM),再将每个GMM的均值矢量依次拼接成一个高斯超矢量作为该录音样本的深度特征,即深度高斯超矢量特征。最后,采用谱聚类(Spectral Clustering,SC)算法对各录音样本的深度高斯超矢量进行聚类,将相同手机录制的录音样本聚为一类。使用MOBIPHONE手机录音数据库作为实验数据集,以K值(平均类纯度和平均手机纯度的几何平均值)、归一化互信息量(Normalized Mutual Information,NMI)和聚类精度(Clustering Accuracy,CA)作为性能评价指标,实验讨论DNN结构设置,比较不同特征的聚类性能。实验结果表明:深度高斯超矢量在手机聚类时的K值、NMI和CA分别为93.81%、95.11%、96.75%,均高于其他特征的对应值,说明本文所提取特征是有效的。(2)提取(1)中的深度高斯超矢量特征时,方案假定已经预先知道用于训练DNN的录音样本标签,但在实际手机聚类时该先验信息有时不能获取。为了克服上述不足,提出一种基于深度表征(Deep Representation,DR)的手机聚类方法。该方法采用深度自编码网络(Deep Autoencoder Network,DAN)代替DNN提取瓶颈特征,无需关于手机的任何先验信息。本工作以三个手机录音数据库作为实验数据,讨论DAN隐层参数设置,并比较不同特征、算法的聚类性能。实验结果表明,DR特征的性能略差于(1)中提取的DGS特征,但优于其他特征。相比于DGS特征,DR特征的优势是:它在提取时无需手机的任何先验信息。另外,本聚类方法优于基于凝聚分层聚类的无监督方法但稍差于基于支持向量机(Support Vector Machine,SVM)的有监督方法。最后,讨论本方法在录音样本的数量不对称、来自相同手机型号、来自相同说话人等特殊条件下的性能表现。实验结果表明,本方法在上述条件下也有较好的表现。综上所述,本文以手机录音作为分析对象,基于深度学习技术提取刻画手机内在特性的深度特征,提出基于语音深度特征的手机聚类方法,从多个侧面实验分析本文方法的性能表现,并与文献报道的方法进行比较,验证本文方法的有效性。
其他文献
驱动系统安装在转向架上构成机车走行部的核心部分,是确保机车运行安全和运输效率的关键因素。机车的持续不间断运行导致驱动系统关键部件磨耗加快、工作条件恶化、性能参数也不断变化,因此对机车驱动系统的状态检测一直是保证机车运行安全性和可靠性的重点,最常用的手段就是对各关键部件进行振动检测分析。振动分析对评判机车车辆的装配质量和维修保养中的诊断识别都具有重要意义。基于以上背景,本课题以HXN3型机车驱动系统
信息加密是计算机网络安全研究中的重要内容之一,而密钥是加密算法中的可变部分,它很大程度上决定着保密通信的安全。所以,通信双方如何在确定对方身份的同时达成会话密钥,成
这项研究的目的是调查全球化对中国西安教育服务业中组织文化某些关键维度的影响。使用改编的组织文化评估工具问卷(OCAI)和相关性研究来衡量全球化程度对组织文化某些关键维度的影响。本文的第一部分涵盖了对先前文献的分析,隐含了五个小节,涉及本文的两个关键变量,即全球化和组织文化。文献综述和调查结果均提供了有关中国组织文化以及全球化对企业文化的影响的见解.实证研究包括两个部分,首先是采用适应性组织文化评估
大数据流式处理作为新的容错、分布式的实时计算系统,其主要体现在分布式远程的调用、实时分析、在线机器学习、持续计算以及数据的抽取、转换和加载等领域,高效、简单的操作
自20世纪60年代起,为了提高教育质量,美国高校开始关注学生的学习和学生的发展。学业指导对于学生发展的积极作用源于其是专业性的指导活动,有专业的理论基础和保障体系。本文希望通过梳理美国高校学业指导发展的阶段,分析其现状,结合具体高校实施学业指导的案例来分析美国高校是如何进行学业指导的,探究美国高校学业指导的实施效果及特点,进而分析其所面临的问题,并为我国高校实施学业指导提出一些参考性建议。本文分为
随着社会经济和科学技术的不断发展,钢琴音乐艺术与信息科学、计算机技术相结合的研究受到越来越多的关注。随着钢琴普及率的不断提高,如何对钢琴音质科学地客观地评价,已经
波达方向(Direction of Arrival,DOA)估计是阵列信号处理中非常重要的一个研究方向,随着我国建设海洋强国战略目标的提出,水下DOA估计显得尤为重要,在水下军事侦察、定位与跟
随着中国对6G网络的研究,以网络视频为代表的网络娱乐将取得空前的发展,而如何及时有效的向用户推荐其感兴趣的网络视频是布局国内市场至关重要的一步。再加上智能时代的到来
在计算机科学技术日益发展的现代社会,人类对科技生活的需求越来越多,人机交互技术也就被广泛地应用到各个领域。语音识别系统的出现与应用,丰富了人们的智能生活,提高了人们
传统Hurst指数为一个常数,只能描述数据整体的自相似性,其估计结果无法描述这些数据局部突变的信息。但最近的研究表明大量自相似数据体现出局部自相似特性,即相对于数据整体的自相似参数,其局部的Hurst指数有所不同。数据的局部自相似特性可以有效描述数据的局部相关特征,是传统自相似参数的一种广义化形式。因此,数据的局部自相似特性分析逐渐受到重视。研究和分析时间序列数据的局部自相似性,对于建立更加准确的