基于深度学习的说话人无关单通道语音分离

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zhangway77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机和互联网的高速发展,人们的生活方式发生了巨大改变,人与计算机之间的交流也日益增多。作为人类最重要、最常用和最方便的信息交换方式—语音输入,也得到了越来越多的科研人员的广泛关注。随着语音的人机交互技术在语音合成、自动语音识别(automatic speech recognition,ASR)等领域获得了巨大成功,也同时伴随着很多问题亟待解决,比如背景噪声、混响等对语音质量会产生极大的干扰,从而降低了语音的听感以及可懂度,对ASR的系统也会造成很大的影响,进而影响语音技术的实际应用。如何从被干扰的语音中获得较干净、清晰的语音信号,成为语音信号处理领域的一个重要课题。而在这其中,语音分离是极为重要的一个方面,也成为了语音技术发展的迫切需求,受到了研究人员的重点关注。进入21世纪以后,深度学习技术在信号处理域取得一系列重大突破,首先是多伦多大学的Hinton教授将深度模型引入在图像编解码和文本分类领域中,取得非常好的效果,再者是微软的邓力博士将深度神经网络(Deep Neural Network,DNN)应用在语音识别任务上,获得了非常大的性能提升,随后深度学习在语音,图像和视频领域都有非常广泛的应用,特别是工业界像谷歌,微软,百度这样的巨头,都将深度学习应用在他们的产品中,极大地促进了深度学习在学术中的研究。并且工业界的大规模成功应用,还显示了大数据在实现分类或识别任务上的巨大的潜力。而在语音分离任务上,能否用深度学习技术结合大数据在说话人独立的条件下实现比较好的性能表现是本论文的一个研究重点。在各种语音分离的方法中,除了会利用到空域信息的麦克风阵列技术以外,单通道语音分离是其中非常重要的一个领域,而其中没有混合说话人先验信息的说话人独立方法是其中的一个难点。近年来,基于计算听觉场景分析(compu-tational auditory scene analysis,CASA)的方法在单通道语音分离上得到了 成功的运用,但是这种方法会给目标信号造成很大的畸变。而利用回归的DNN能够更好的保留目标信号,本文的主要工作就是利用深度学习技术在单通道条件下进行说话人独立的语音分离。首先,我们在异性说话人组合的情况下进行了说话人独立深度神经网络的构建工作。能够进行多说话人语音分离的一个重要理论基础是混合的说话人的发音特性具有一定的区分性,比如不同的共振峰、频率分布、相同音素的不同发音时长等。而男性和女性说话人由于发音器官具有天然明显的不同特性,具有可分离的理论基础。通过利用混合语音的对数功率谱(log-power spectra,LPS)作为DNN模型的输入特征,而将说话人的干净语音特征作为输出,训练DNN学习混合语音和干净语音的非线性关系。然后,本文提出了一个基于说话人组合检测的说话人独立单通道语音模型系统。首先通过利用一种计算说话人语音相似度的方法,将说话人聚类成4个不同的子类,并证明不同之类之间具有明显的可分性。然后基于聚类结果,本文训练了一个有四输出端的说话人组合检测器,通过该检测器网络的输出信号的能量关系,可以判断当前混合语音的说话人组合类别。最后,根据检测器的识别结果,利用不同的DNN语音分离器将混合语音进行分离。最后,本文基于最大似然估计改进在回归DNN模型的训练过程中采用的最小均方误差准则(Minimum Mean Square Error,MMSE)目标函数。在最大似然估计的情况下,假设DNN的输出错误信号服从零均值的多维高斯分布,提出了一种依次更新DNN参数和其输出错误信号的分布函数的协方差矩阵的方法。进而可以发现MMSE准则在以下假设的条件下等效于最大似然估计:即DNN的输出错误信号分布函数的协方差矩阵为单位阵,即它的LPS域的各个分量具有相同的方差。但是实际情况下,这个假设并不严格成立从而限制了基于MMSE优化准则的泛化能力,因此通过将这个约束条件进行放松,在最大似然估计下得到了新的目标函数用于DNN的训练,并取得了明显的性能提升。在本文的最后,我们对所有工作进行了总结,并对未来的工作方向进行了展望。
其他文献
介绍了湿式等离子体烟气脱硫试验,研究了模拟烟气参数、反应器结构和放电特性等因素对脱硫效率的影响.实验表明,试验结果为工业性应用提供了基本资料.
基于Landsat 8 OLI遥感影像和森林资源二类调查数据,对有林地、灌木林地、未成林地和非林地等林地类 型,分别采用最大似然、神经网络、支持向量机和决策树分类方法进行分类,
中国能否出现真正的世界级企业?这是本刊在2007年贯穿始终的关注焦点,几乎所有的重大选题都隐隐地围绕着这一使命展开——中国企业的机遇在哪里?我们与世界级企业的差距何在?什么
近日,欧姆龙(中国)有限公司(健康医疗事业)在中国推出了它的领睿型电子血压计HEM-7300。该款产品主要针对35—45岁的中青年商务人士。旨在唤起该人群中已有高血压、处于“正常高值
2007年7月4日,当大约10万人聚集在都灵庆祝新的Fiat500车型发布时,人们再次在镁光灯下找到了菲亚特这个百年汽车望族的身影。
目的:探讨术中实时三维影像脊柱导航引导下后路椎弓根螺钉置入及半椎体切除矫治儿童先天性脊柱侧后凸畸形的临床疗效。方法:自2010年5月~2013年4月,对18例儿童先天性半椎体脊
目的 分析腹腔镜下应用HabibTM 4X(双极射频电极)行肝切除的手术护理要点及实施效果。方法 选取本院2016年1月~2017年4月收治的90例行肝切除术患者作为本次研究对象,随机分为对
看上去是让自己更接近长远目标的一步收购,却让海灵集团陷入了一个难题。并购得来的容兴品牌是否应该保留,到底并购容兴给海灵能够带来的最大优势是生产规模的扩张,还是产品差异
中外合作办学是高等教育走向国际化的一个必然发展趋势。上海建桥学院自2013年开始踏上国际化合作办学之路。对于在中外合作办学过程中遇到的问题和困难应该有明确的认识,从
车身用胶是车辆制造环节中重要的工艺材料之一,在车身生产过程中有着广泛应用,其在车身的密封、减震、隔音、连结,以及优化生产工艺、减轻车身重量、促进新型结构材料在汽车