基于哼唱的音乐检索系统的研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:ruyudeishui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网与软硬件的快速发展,音乐的制作和传播变得越发高效和便捷,导致音乐数量呈爆炸性增长。音乐数量的快速增加,促进了对更多样、更高效的音乐检索方式的需求。基于哼唱的音乐检索是一种新型的音乐检索方式,它属于基于内容的音乐检索方式。本文研究的哼唱检索系统的哼唱音频是WAV格式,数据库中歌曲是MIDI格式。哼唱旋律提取、哼唱位置确定和旋律匹配是哼唱检索过程中最重要的三个环节。本文围绕评测准确度指标MRR(Mean Reciprocal Rank)展开,并在IOACAS哼唱数据集与10000首MIDI歌曲组成的数据集中测试。在哼唱旋律提取和旋律匹配方面,本文的主要研究工作和创新点如下:(1)在哼唱旋律提取部分,提出一种基于多个概率分布的方法计算PYIN(Probabilistic YIN)算法中的观察概率。该方法对周期稳定性不同的音频使用不同的概率分布计算观察概率,降低了PYIN基频提取算法将倍频错识别为基频的概率,并提高了对噪声的鲁棒性,使MRR指标从64.2%提高到67.5%。(2)在旋律匹配部分,提出一种基于切割点对齐的旋律匹配算法。该算法采用音符切割点对齐规则并利用动态规划算法求解最优对齐路径,充分地利用了每个切割点的信息,对音符的误切和漏切问题具有很好的鲁棒性,可以更好地利用旋律的节奏信息和有效地提高旋律匹配的区分能力,使MRR指标进一步提高到78.9%。(3)在旋律匹配部分,首先提出一种改进DTW算法,改进后的DTW算法增加了每个点对齐次数的约束,可以在不约束横轴的情况下避免过度扭曲的现象发生。然后提出一种基于改进DTW算法获取候选旋律的方法,该方法利用改进DTW算法查找候选旋律的起止点,可以更准确的找出候选旋律,使MRR指标进一步提高到80.2%。
其他文献
本论文以中药小分子小檗碱、DNA和炎症标志物C反应蛋白的快速可视化和高灵敏检测为目标,构建了3种基于纳米金光学传感器的检测新方法。主要内容包括:(1)第一章,介绍了药物和生
随着互联网的迅速普及,信息搜索成为人们的迫切需求,以百度搜狐为代表的搜索引擎虽然便利,但专业性不足。为更快捷、准确地获取信息,特别是专业性较强的信息,问答系统作为一
近年来,随着物联网技术的发展,越来越多的研究者开始关注能量收集技术,以解决无线传感器网络节点的自供电问题,其中振动能由于其广泛存在性、高能量密度和高能量转换效率等优
泥炭沼泽储藏了超过30%的陆地有机碳,泥炭藓作为沼泽中最重要的植被组成,在固定大气碳过程中发挥关键作用。泥炭藓易受气候变化影响,沼泽气温、季节性降水变动会改变泥炭藓群
现有的人脸识别方法在良好控制的条件下已经取得令人满意的性能。然而人脸识别在商业和执法领域具有广泛的应用,在这些应用中往往需要识别从监控摄像头和手持设备获得的人脸
知识追踪是教育数据挖掘和学生建模领域的重要研究内容之一。知识追踪任务是指分析学生以往答题记录建模该生当前的知识点理解情况,进而预测学生未来的答题结果。通过追踪学
秦始皇兵马俑是中华民族璀璨文明的有力证明,但大部分出土时都破碎不堪,因此对其拼接复原意义重大。传统的手工复原需要专家经验,费时费力,而且容易对文物造成二次损坏,迫切
随着城市化进程不断增快,社会大众对基础设施的需求不断增长,对作为国民经济支撑的大型市政工程提出了新的要求。然而,巨大的财政负担与新大型市政工程的建设矛盾难以平衡。
随着数字技术和信息技术的迅速发展,人们享受到了数字化和信息化带来的许多便利。但同时,数字产品的版权保护等安全问题显得越来越重要。这时,数字水印技术的出现为这类问题
传统的加密算法一般只考虑点对点的加密方式,但现实中往往会有单点对多点甚至是多点对多点的通信形式,传统的加密方式不能直接应用于这种情形。广播加密是一种单点(多点)对多