基于时频分析的音乐识别和歌声分离算法研究

来源 :复旦大学 | 被引量 : 2次 | 上传用户:Cecil1119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和多媒体技术的飞速发展,网络上的音乐数量呈现了爆炸式的增长。与此同时越来越多的用户开始使用网络音乐应用,带来了多样化的音乐信息需求。因此,如何自动地对海量音乐数据进行有效的组织和管理,以及如何从音乐中提取各种不同的信息成为了亟待解决的问题。音乐信息检索就是在这种背景下诞生和发展起来的研究领域。在本文中,我们关注音乐信息检索中的两个重要任务,即音乐识别和单声道歌声分离。我们为这两个任务分别提出了一种和两种新算法。这共计三种算法均采用了时频分析的方法,它们都包括了首先将音乐信号变换为一种时频表示,然后基于这种时频表示对音乐进行时域和频域的同步分析。为解决音乐识别对时间伸缩和音高平移的鲁棒性问题,我们提出了一种基于时频谱图尺度不变特征变换(Scale Invariant Feature Transform, SIFT)的音乐识别算法。在研究中我们发现,音乐的时间伸缩和音高平移可以被分别描述为相应的对数频率尺度时频谱图图像的时间轴伸缩和频率轴平移,而SIFT正是一种对图像伸缩和平移具有较强不变性的图像特征。因此,从时频谱图图像中提取的SIFT特征也表现出了对音乐时间伸缩和音高平移的鲁棒性。为解决单声道歌声分离问题,我们首先提出了一种基于两层时频谱图分解的新算法。在算法的两层中,我们分别为输入歌曲构建长窗口和短窗口的时频谱图并对时频谱图进行非负矩阵分解(Non-Negative Matrix Factorization, NMF).我们设计了一种频谱不连续性的阈值判定方法来从长窗口NMF中选出谐和乐器分量,以及一种时间不连续性的阈值判定方法来从短窗口NMF中选出打击乐器分量。通过将选出的分量删除,歌曲中的谐和和打击乐器伴奏被分别消减,而歌声不受影响。除上面的方法外,我们还提出了一种对传统的基于音高的歌声分离算法的改进。改进后的方法增加了使用NMF将歌曲的时频表示分解为一组互不相交的时频块,每个时频块来自于唯一一个声源。与歌声音高所带来的谐波结构信息相配合,这些时频块能够显著提高歌声分离的性能。
其他文献
一、学会关注他们的情感需求现代教育家陶行知先生说过:没有爱的教育是失败的教育,情感是人类的第一需求,尤其是现代教育环境条件下成长的青少年,由于父母的快节奏的生活和工
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
公益项目的运作,不仅需要考虑人性和利益需求,更要学会"攻陷"人心,有时更胜于实用的商业技巧。渣打银行"看得见的希望"第二期项目结束五年之后,姚建玲站长仍旧有些感慨:她没有料到
以亚硫酸铵法焦糖色素为对象,研究不同温度、pH等条件下的稳定性。结果表明:在40℃以上,色素不稳定;pH值为2~10时,焦糖色素基本稳定。不同浓度的磷酸二氢钠、无水硫酸钠中焦
员工忠诚是一种可以进行二次开发的资产。事实上,的确有——些对服务了多年的公司怀有浓厚情感的员工,愿意在退休之后利用各种机会为公司做事。比如说,丰田公司就有老员工在退休
企业大学作为企业人才培养体系中的重要一环,不仅承担着传统的培训事务管理工作,更应在所提供的学习培训方案与企业战略之间建立起密切的联系,肩负起三个更为重要的职责,即成为企
十几年前,我被当时还不算丰富的网上世界深深吸引,每日沉溺于网上社区,热衷与陌生的灵魂探讨生命、宇宙以及一切。
我们对待岛屿有种本能的热爱冲动。它甚至具备医药功能。这些岛屿,差不多跟海水中的盐分一样珍贵。济州就是这样的岛。小岛本地生活济州岛名声在外,总有人乐意不辞辛苦地奔去岛
东风标致全新B级车标致508的成功上市,一方面丰富了东风标致的产品线,为东风标致带来了大量的B级车主;另一方面,如果说过去东风标致307、东风标致408以出挑的外形和法系车独特的
一纸人事变动,彻底改变中国最大民营教育集团三寡头的权力架构:执行总裁陈向东的“三权合一”和董事长俞敏洪自我“削权”,意在公司管理上的去浪漫主义,以实现未来5年1 60亿元的