基于卷积神经网络的说话人识别与聚类研究

来源 :北京工业大学 | 被引量 : 3次 | 上传用户:jie_er
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别问题是通过语音特征来确定说话的人是谁。近年来,大多数学者仍然使用传统的方法来提取语音特征,如梅尔频率倒谱系数,简称MFCC,但是由于真实环境比较复杂并且与实验的环境相差很大,所以得到的结果差强人意。因此,我们应寻求一种新的方法来提取语音特征并且达到较好的实际效果是非常有必要的。随着人工智能技术不断发展,利用深度学习的方法使人工智能技术快速的应用到图像、文本、以及语音识别等众多领域,具体来讲,渐渐形成了一种利用大数据获取抽象特征并且这些抽象的特征都是自动提取的方法。其中,卷积神经网络的发展使深度学习的研究达到一个新高度,通过卷积神经网络的特征提取来解决说话人识别问题,也受到广泛关注。说话人识别方法有GMM-UBM模型,该模型在实际应用中取得了不错的成绩,但是它仍然存在两个主要的缺点:(1)模型采用的是EM算法进行迭代训练,该方法结构复杂,训练时间较长,并且需要大量的内存,泛化能力一般;(2)模型对数据的要求非常严格,因此需要相对应的方法来生成指定的数据格式。本文针对说话人识别的问题,提出了一种基于卷积神经网络的说话人识别与聚类模型,该模型分为两个部分,第一部分是使用声音的频谱图作为卷积神经网络的输入,研究并优化了网络用于说话人识别;第二部分是根据说话人识别模型提取相关的特征进行未知说话人的聚类研究。为了提高说话人识别的模型效果,在频谱图的生成过程中,本文采用了512维的声纹特征进行频谱图的生成,并且在声音的静音检测过程中,采用动态的阈值来处理静音区域;在网络设计中增加了Dropout和块归一化层,并且研究了不同层数的说话人模型效果。除此以外,为了验证说话人识别模型的鲁棒性,对比了不同的人数的模型效果。对说话人聚类模型,还选择了主成分分析和适应性传播聚类进行可视化分析。在数据集TIMIT上取得了92%的测试准确率,对未知说话人聚类也获得了可比较的效果。
其他文献
运动诱导骨骼肌损伤,会由于临时性丧失肌肉功能,如果不能进行恰当处理,继续过度训练则会造成更严重的损伤,甚至导致运动员运动寿命的缩短。对体育运动训练所造成的骨骼肌微损
自从20世纪50年代以来,全球服务业开始了迅猛发展,服务业增加值占GDP比重持续不断的上升。目前,世界大多数发达国家服务业增加值比重超过了50%,同时提供全社会一半以上的就业岗位
在出行过程中,老年人很容易出现摔倒、迷失等问题,尤其是在未知楼宇环境中,如果出现身体问题,身边没有其他人可以求助,可能造成严重后果。考虑到老年人目前遇到的问题,分析老年群体对楼宇内个人定位的迫切需求。在高楼分布密集的导航盲区内,GPS(Global Positioning System,全球定位系统)信号微弱,定位不准,而这些环境正是老人的主要活动区域。本文研究开发了一种基于组合导航的老人轨迹推算
盐渍土在我国土地上面积较大,由于盐分聚积地表、土壤孔隙度较小和通气透水性较差等特点,成为一种贫瘠土壤。然而有众多的盐生植物却长期生长在此类土壤中,那么研究盐生植物
组织结构的变革是现代企业管理研究的前沿课题,在实践中也有着至关重要的指导意义。随着“互联网+时代”的到来,商业环境日趋复杂,企业为了求生存、谋发展,组织结构必须与环
初中语文的学习对于初中学生来讲本不是难事,可现实生活中的初中生学习语文却有难处。表现在:兴趣不高,基础不牢,理解不透,掌握不好,特别是作文和阅读理解成了语文学习的拦路
核桃(Juglans regia.L)作为果、木兼优的经济树种,因其树形高大,生境多为山地,繁殖周期长等限制因素,培育具有矮化特性且抗性增强的砧木品种具有重大意义。本试验利用农杆菌介
【正】建立生态环境损害责任终身追究制《决定》指出,建立生态环境损害责任终身追究制。建设生态文明,必须建立系统完整的生态文明制度体系,实行最严格的源头保护制度、损害
共享经济作为新型的商业模式,凭借方便、快捷、经济等特点受到消费者的热烈追捧。不过快速发展的共享经济也存在诸多弊病,文章以共享单车为例,旨在找出共享经济存在的问题,并
饭店服务质量已经得到越来越多的饭店企业和相关学者的重视,但目前国内关于饭店服务质量的研究却局限在学者对服务质量的重要性、概念以及如何测度等方面——既有学术意义,又