基于卷积神经网络的音乐流派分类模型研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:vuip
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音乐流派分类,是音乐信息检索中一个关键环节,不同的用户对各流派的音乐喜爱程度差异也有霄壤之别。无论何许流派,一首音乐的组成十分复杂,伴奏的乐器多种多样,人声的差异也十分显著,各种元素的和声更是千变万化。构建一个良好的音乐分类体系,可以有效减少用户对于喜爱音乐的检索耗时,提高用户体验。早期音乐流派分类主要是通过专业人士听音注释,这种方法无疑费时费力。引入机器学习的方法之后,最初是以人工判断的方法决定可能用到的声学特征,提取音乐中的这些特征训练分类器,从而实现音乐流派分类。这类方法不稳定性较大,需要手工设计特征集,因此一定程度上依赖个人经验判断以及专业知识,因此准确率难以提高。针对以上问题,本文基于深度学习的思想和卷积神经网络的结构特性,设计了以频谱图为输入的音乐流派分类模型,提供了音频分类识别的新思路。主要工作有:1.将音乐文件通过短时傅利叶转换、梅尔变换和常数Q变换及可视化处理生成对应频谱图,研究了三者所能呈现的可视声学特征,及三者之间图像化声学特征的直观差异,并举例对比了不同流派所生成的图谱。从输入到输出设计了完整的架构,搭建出基于频谱图的卷积神经网络分类模型,利用卷积神经网络的高效性和强大的特征学习及分类能力减少了人工处理的时间和成本。在GTZAN(George Tzanetakis)数据集上,该模型有着71.34%的分类精度,领先于其他常见机器学习算法。2.针对原始模型在输入数据以及网络架构方面的不足,本文提出了改进的卷积神经网络分类模型。新模型在GTZAN数据集上的分类精度最优可达92.21%,相比原始模型性能又有了进一步的提升。未来还将在特征分析、模型的加速以及数据规模方面进一步优化模型性能,将其更好的应用于音乐信息检索领域。
其他文献
少数官员报喜不报忧,主要表现在只讲成绩,夸大造假,好大喜功,投机取巧等方面。这是由官员的思想认识、投机心理以及考核晋升制度不健全等因素造成的。少数官员报喜不报忧会妨
本文分析了目前关于脆弱性概念的五种界定及其存在的不足之处,并给出脆弱性概念的进一步补充和解释。借鉴世界粮食计划署(W FP)、英国国际发展署(DF ID)、D ercon以及Sharp等
旧城改造是城市建设永恒的课题,作为提升城市品位的一个重要契机,长春市旧城改造应让城市品位蕴含在旧城改造战略规划中、凸显在独特城市历史文化中、贡献在旅游产业大有作为
上层座席位于下层中间走廊悬吊台上的双层穿廊客车,在北美市郊客运中运用40年来起到了积极的作用。最近,芝加哥又订购一批有司机控制台的梭动式双层客车,从而使客车保有量超
共产主义信仰是中国共产党党员的强大精神支柱,共产主义信仰体现着无产阶级革命者的向往和追求。在中国,我们建立的社会主义国家,就是无数前辈和先烈以马克思列宁主义及其中
国家审计、内部审计、社会审计都参与村居审计工作,审计资源分散,审计重点不突出,制约了村居审计的整体效能。本文介绍了山东省高青县审计局探索“模块化”审计方式,提升村居审计
在论述红壤养分特性的基础上,论述了南方红壤丘陵区主要牧草的肥料效应和合理施肥。红壤呈酸性,固磷能力强,氮和矿质元素普遍缺乏,因而牧草对氮、磷、钾肥常有显著的响应,微量元素
一、主要栽培技术1、品种选择(1)广州大叶茼蒿叶大而厚,叶面稍皱,有蜡质及光泽,品质优良,采收期开展度为28cm、株高为20cm、茎青色、生长慢、熟期略晚、亩产量可达1300公斤。(2)细叶
该文提出一种采用弹塑性位移谱的直接基于位移的抗震设计方法,对预应力预制混凝土剪力墙结构进行设计,依据初步设计的结构几何参数得到结构的屈服位移,根据大震作用下的设计