基于深度学习的单声道人声与伴奏分离算法研究

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:shena011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单声道人声与伴奏分离问题是信源分离问题的一种,意图从一路混合信号中分离出人声与伴奏。分离问题可以很自然地表达成一个监督学习问题。随着机器学习技术的快速发展,基于监督模型的方法已成为近几年的研究趋势。以深度神经网络为代表的深层模型,比如卷积自编码器,显著提升了分离问题的性能。神经网络的输入通常是时频图幅度或由此提取的特征,输出有两种选择,一种是人声时频图幅度,另一种是时频掩膜。由于时频图幅度有着更广的动态范围,以往的方法倾向于预测时频掩膜。当预测人声时频图幅度时,一方面模型需要进行复杂的非线性运算去除伴奏的频率成分,另一方面需要将人声的频率成分以较小的失真输出。增加卷积层、池化层的数目能够增强神经网络的非线性处理能力,同时也会引入更多的失真。针对这个问题,本文提出基于U-Net的单声道人声与伴奏分离算法。U-Net在卷积自编码器的基础上增加了融合层与跨层连接,跨层连接把两个不相邻的层连接起来,因而输出能够获取未被池化的高精度特征。此外,为了避免过拟合,本文提出了一种针对语音分离问题的数据扩增方法。本文设计了一系列实验来展示U-Net方法的特性。在iKala数据集上的实验显示,相同深度下U-Net的分离性能总是优于自编码器,同时增加U-Net的深度能够提升分离性能。此外,预测幅度的分离性能要优于预测掩膜。预测幅度时,选择损失函数为KL离散度的分离性能又要优于均方误差。本文也在DSD100数据集上进行了评估,在没有对分离后的语音进行额外处理的情况下,U-Net方法取得了第三名。相比其它方法,U-Net方法具有分离框架简单、延迟低、速度快、权重数目少的优点。最后,本文首次提出以视频的形式对神经网络进行可视化,视频能够反映隐藏层输出随不同声音输入的变化。实验发现U-Net能够提取出具有区分性的音频特征。
其他文献
全英语课程设计整合校内和校外优质师资资源,基于布鲁姆教育理论和BOPPPS方法论等课堂教学辅助学习通软件,激发学生的学习兴趣;利用超星尔雅优质网络教学平台引导学生从浅层
取法自然的绞胎茶具安徽省祁门县政协倪群本世纪三十年代,在河北省的宋代巨鹿故城遗址中出土了一类瓷器,从器形上看虽与普通瓷器并无多少不同,但认真考究一下,便可发现这类瓷器在
2006年6月16至18日,由北京大学、北京语言大学、中国社会科学院语言研究所、北京师范大学、南开大学和商务印书馆联合主办,北京大学中文系、北京大学汉语语言学研究中心、北京
近年来,随着全球经济一体化进程的不断加快,我国与世界各国的联系也愈发紧密.外商也逐渐将我国作为直接投资的重要东道国之一,并且外商的进入使我国的各个领域都得到了快速发
在新课程改革的背景下,引导学生参与到数学课堂学习,帮助学生成为真正的学习主体,是一线小学数学教师、教育工作者们研究的重要课题。小学数学课堂导入作为一堂课的开端,具有一锤
一、制作“分数墙”,建立数学模型让学生利用长短相同的纸条自己尝试制作“分数墙”,在操作的过程中,加深对分数意义的理解。例如,在折纸条的操作中学生可以很好地理解1/2=2/4=3
2010年7月18日接中华人民共和国卫生部[卫新刊函(2010)54号]函,“经中华人民共和国卫生部研究,同意《临床心身疾病杂志》自2010年7月6日起,主管单位由河南省卫生厅变更为中华人民
村民活动中心是农村基础建设中不可或缺的重要组成部分,随着乡村振兴的推进,各地都已逐渐加大了对农村地区基础建设的投入力度。近两年,村民活动中心在农村如雨后春笋般涌现,这使得农村居民的文化、体育、娱乐等公共活动愈加丰富。但在村民活动中心设计中,普遍存在功能上不完善、不实用,建筑形式上大多采用风格单一的现代建筑,装饰细节上同质化问题严重。这些问题在普通农村地区无可厚非,但在一些古村落中建设这样现代风格的
抓住历史性机遇加快九江经济发展步伐熊承忠随着京九铁路的贯通和以涌乐为龙头的整个长江流域的开放开发,九江作为沿江开放城市和京九与长江的交汇点,既处在由沿海内陆推移的过