多版本音乐识别技术研究

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:vforvivid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多版本音乐或称为翻唱音乐是对具有相似主旋律音乐的统称。由于多版本音乐之间存在音色、基调、速度和结构等方面的差异,使得多版本音乐识别成为音频信息检索领域比较难的研究方向。多版本音乐识别通常包括两种形式:1)输入一段查询音乐,从数据库中返回所有判定为翻唱关系的版本,用来实现音乐推荐;2)给定一对音乐,判断两者是否具有翻唱关系,用作版权鉴定。随着大数据时代的到来,识别速度成为急需解决的问题,而当前多版本音乐识别的研究主要关注的是识别准确率问题,针对这一问题本文通过对时序shapelets算法进行改进得到一种快速多版本音乐识别算法,在准确率提升的同时极大提高了识别速度。音乐可以看成是由伴奏声和人声组合而成,基于这一事实,本文分别研究了基于Chroma特征和MFCC特征的多版本音乐识别技术。主要的研究及创新性工作如下:(1)基于Chroma特征的多版本音乐识别研究。对算法中特征提取,基调规整模块进行了分析;重点研究了动态时间规整算法,得出在多版本音乐识别中局部优化优于全局优化的结论,指出了算法中对结构规整考虑不足的问题。针对该问题引入了时序shapelets算法并根据音乐信号特点进行了相应改进。1)针对候选子序列的穷举问题,本文采用固定窗函数的方法,极大减少了候选子序列的个数;2)针对多版本音乐类别过多信息增益难以计算的问题,采用了基于类距离的判别方法;基于上述改进得到音乐子序列(MS)算法,显著的提高了识别速度。针对MS算法鲁棒性不够的问题提出了采用三段shapelets的Triple-MS算法,该方法与MS算法时间复杂度为一个量级但识别准确率更高。(2)基于MFCC特征的多版本音乐识别研究。研究了MFCC特征提取过程,针对传统MFCC特征识别准确率不够的问题,本文主要进行如下改进:1)针对梅尔滤波器组对临界带宽考虑不足的问题提出了基于临界等价矩形带宽的带宽设计方法;2)针对人耳对不同频率敏感程度不一的问题,采用了加权因子进行调整;3)用布莱克曼窗代替汉明窗增加对和声信息的考虑;依据上述改动得到EFCC特征使识别准确率得到提高。结合Triple-MS速度快与EFCC准确率高的特点得到了Triple-MS-EFCC方法在保证准确率的前提下提高了识别速度。
其他文献
图像压缩分为有损压缩和无损压缩,无损压缩是指在没有任何图像损失的前提下,降低数据量,获得低比特率的图像数据表示,在解码时可以无失真地恢复出原始图像的压缩方法。无损图像压
短波通信,又称高频(HF)通信,一般指3MHz~30MHz的无线通信,由于通信距离远、架设简单和移动方便等,成为军事及民用远距离通信与指挥的重要工具。由于短波主要是利用电离层传输,故短波
当前建筑行业快速发展背景下,钢结构在高层建筑中应用可以有效提升建筑整体施工质量,这就需要设计师在钢结构设计中充分考虑到安全问题,促使设计方案更加科学合理.随着中国国
认知无线电技术允许认知用户与主用户共享同一频段,提高了频谱利用率。而与此带来的认知用户与主用户有效的共存,保证系统内各用户的QoS成了我们当前需要思考和解决的问题。无
在认知无线网络中,相邻认知节点需要交互包括频谱感知结果、时钟同步、网络拓扑和通信频段预约等大量的控制信息,在不干扰授权用户通信的前提下灵活而准确地从多个授权通信频
数据中心虚拟化技术能够提供各种云服务和实现虚拟机(VM)迁移,因此越来越受到学术界和工业界的关注。虚拟机迁移可以帮助服务提供商实现节能降耗,提高资源利用效率和保证服务
随着互联网日益发展,给我们的工作带来诸多方便,然而也为我们信息的安全带来的新的挑战,信息安全在今天,无论对于校园还是企业都有着举足轻重的地位。现实中我们总面临这样的
近年来随着互联网的迅猛发展,网络中的业务量不断增大,业务对网络资源需求越来越大,由于传统网络设备的控制和转发功能紧密耦合,很难对网络进行有效的管理,传统的互联网架构
结合电力系统通信网的现状,设计并实现了一种蓄电池组实时在线集中监测系统,该系统充分利用变电站中的各种通信资源,进行命令和数据的传输,针对变电站的蓄电池组,成功实现了实时监测、智能诊断、自动报警、容量估计、远程维护等功能,大大提高了变电站维护人员的工作效率,消除了监测盲点。文中介绍了改进的蓄电池内阻测试方法,说明了监测系统的层次结构、安装方式和运行方式,详细阐述了监测服务器主控软件的实现方式和运行状
我国的传统文化具有着悠久的文化历史,并且蕴含着丰厚的文化底蕴,贯穿于人类文明发展的整体脉络.我国传统的东方韵味文化,一直以来彰显我国民族特色的重要表现.纵观我国以往