基于Constant Q变换的音符起始点检测算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:JK0803_hlw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音符起始点检测问题是音乐信号分析与处理的基本问题,是基于内容的音乐检索系统的关键环节,尤其是哼唱检索系统,每个音符起始点的检测精准度在很大程度上影响了基于内容的音乐检索系统的准确性。现在音符起始点检测方法大都是在语音端点检测方法的基础上加以改进的。本文首先对音乐起始点检测的研究背景及意义进行了全面的介绍,总结出国内外研究人员的对该课题研究的四个重要步骤:预处理、特征提取、选取特征方程、峰值提取。然后对每一步骤做了详细的说明,介绍了几种经典的检测算法,并分析了利弊。最后,提出了更有效的全新的音符起始点检测算法——基于Constant Q变换的检测算法。该方法在Constant Q变换的基础上,将频谱能量与子带谱熵相结合,提出了一种新的计算距离的方法,再通过分层次归一的方法优化检测函数。在音频信号处理中,为了观察高频现象发生的时间位置,应该使用窄时域窗;为了了解低频现象,应该使用宽时域窗;短时傅里叶变换总是使用相同长度的窗,而Constant Q变换可以自动调节窗口长度,且频率点分布符合音乐的音阶分布。本文就是从Constant Q变换的角度出发,频谱能量能很好的反应音乐信号的变化,但是对于“软”音符,其频谱能量变化并不明显,而谱熵与音乐信号的随机性有关,与信号的幅度无关,对于“软”音符,它的谱熵不一定小,正好弥补了基于频谱能量方法的缺点,子带谱熵不仅继承了谱熵的优点,又有一定的抗噪性能。本文将频谱能量与子带谱熵这两个特征参数相乘,用一种新的计算距离的方法建立联合检测系统,得出的音符起始点时间更加精准。最后提出了一种新的优化检测函数的方法——分层次归一,使得峰值更加明显,有利于通过固定阈值的方法提取局部最大值。在仿真阶段,对不同类型的音乐片段进行仿真,分别用基于短时傅里叶变换的频谱差异的方法,基于Constant Q变换的频谱能量、子带谱熵、频谱能量与子带谱熵之积的方法对音乐片段进行仿真,分析仿真结果。实验分析结果表明本文提出的算法检测效果更加明显,有一定的优越性。
其他文献
声源定位算法如今被广泛应用于视频会议、可视电话、移动通信、监测监控系统、航空航天、军事、医疗等领域。随着阵列信号处理技术的日益精进,声源定位算法已不再拘泥于单一参
为了适应航空航天技术的飞速发展,国际空间数据系统咨询委员会(CCSDS)推出了拥有灵活多样的数据处理业务的高级在轨系统(AOS)协议。随着空间数据量的越来越大,以及数据流的自
最近几年,在学术界和工业界的大力推动下,云计算技术得到了迅速的发展。云计算技术的实现除了依靠分布式计算、网格计算等技术外,还要依靠一项重要的技术手段—负载均衡技术
城市供水中的水厂原水由地表水和地下水组成,地下水水源井地处城郊,分布较广,研究基于无线技术的视频信息采集与监控系统,对水源井现有数据监测装备实现升级,具有重要的实际应用价
随着移动终端的普及和移动通信技术的发展,各运营商的业务同质化问题日益凸显,而移动用户的需求和偏好间差异很大,入网套餐选择的盲目性导致网内客户状态不稳定、生命周期缩短、
近年来,智能视频监控一直是计算机视觉等领域的一个研究热点。它的应用非常广泛,其中涵盖很多具体问题。本文主要关注绊线检测、遗留物检测和视频监控画面矫正这几个问题,对解决
为了达到空间技术的发展水平,满足航空、航天诸多的复杂任务需求,国际空间数据系统咨询委员会(CCSDS)在1986年发表并扩展了高级在轨系统(AOS)协议。目前,AOS系统在航空航天技
随着蜂窝无线通信和移动互联网的迅速发展,全球范围内对于无线通信高容量、高可靠性的需求将变得更为迫切。多输入多输出(MIMO)技术可以在不增加系统带宽和发射功率的前提下显著
随着通信和多媒体技术的高速发展,图像已成为人们传递和获取信息的重要方式。目前H.264和JPEG2000已经分别成为视频和静止图像领域应用较为广泛的压缩标准。本文基于复合视频
随着物联网的高速发展,机器对机器通信M2M作为物联网在现阶段最主要的应用形式,必然会引入大量的M2M业务和海量的M2M终端,这将会给无线网络带来巨大的压力与挑战,如随机接入拥塞