基于深度学习的音乐自动标注算法研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户：jianxieshui

【摘要】

：

WEB3.0等领域的飞速发展为数字音乐的共享和传播提供了便利的同时，也使得在线音乐的数量呈爆炸式增长，引发了信息过载问题。一个可行的方法是对音乐进行标注。但是，人工标注非常

【作者】

：

王诗俊

【机构】

：

华东理工大学

【出处】

：

华东理工大学

【发表日期】

：

2017年期

【关键词】

：

音乐自动标注混合判别玻尔兹曼机卷积神经网络深度学习特征提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

WEB3.0等领域的飞速发展为数字音乐的共享和传播提供了便利的同时，也使得在线音乐的数量呈爆炸式增长，引发了信息过载问题。一个可行的方法是对音乐进行标注。但是，人工标注非常耗费人力成本以及时间成本，因此我们需要计算机来为我们进行自动标注。　　目前，未标注的歌曲数量远远超过了已标注歌曲的数量，造成训练数据极度匮乏的问题，从而无法对自动标注模型进行有效的训练。针对这一问题，本文提出了一种基于混合判别玻尔兹曼机(Hybrid Discriminative Restricted Boltzmann Machines，HDRBM)的自动标注算法。该算法通过融合算法结合了生成模型和判别模型的优势，从而解决了因缺乏数据集而导致的训练不充分的问题。同时，本文在HDRBM中加入了Dropout规则化方法进一步避免了由于训练数据匮乏所造成的过拟合问题。实验结果表明，一方面，HDRBM在训练数据集充足的情况下能达到与单一的判别玻尔兹曼机相当的效果，并且比SVM高了8％左右，另一方面，当在小规模训练集上训练时，HDRBM的准确度相比单一的判别玻尔兹曼机高了2％左右，比SVM高了5％左右。　　尽管HDRBM能够在训练样本匮乏的情况下得到较为准确的标注结果，但仍是基于浅层特征的学习，依赖于人工提取的音乐特征，无法有效融合能表现音乐特性的多种乐理信息，因此很难达到理想的效果。为了进一步提高自动标注的准确性和有效性，本文研究了基于深度学习的音乐特性表示方法，并提出了一种基于卷积神经网络(Convolutional Neural Networks，CNN)和长短时记忆神经网络相结合(Long Short TermMemory，LSTM)的音乐自动标注模型。该模型通过构建多分辨率CNN结构实现了多乐理特征的联合提取，并利用LSTM对相邻音乐片段之间的时序特性进行分析以考虑音乐的长效结构信息。实验结果表明该模型在音乐的舞曲、流派、以及情感标注中均达到了非常高的标注准确率，远远超过了传统的基于手工特征提取或是其他基于深度学习模型的自动标注算法，并具有很强的泛化能力。

其他文献

助产士职业暴露的危险及防护

目的:探析助产士职业暴露的危险因素及防护措施.方法:选取本院9名实施专项化职业暴露风险防范措施的助产士为研究对象,采取调查问卷以回顾性分析助产士职业暴露的危险因素,分

期刊

助产士职业暴露危险因素防护措施

护理干预对骨科急性创伤患者应激性高血糖的影响

目的:研究对骨科急性创伤患者提供干预护理后患者应激性血糖升高的情况.方法:取2016.5～2017.5,在我院进行治疗骨科手术的患者共53例,将所有患者随机分为两组,常规护理组27人,

期刊

干预护理骨科急性创伤应激性高血糖

关于师资问题的思考——兼谈各级师范的定位

期刊

师资问题高校改革与发展高校领导主管部门优秀论文活动党政领导教育部专家业务校长书记评审麻雀解剖交流

高龄产妇剖宫产产后出血的原因与护理措施分析

目的:探讨高龄产妇剖宫产产后出血的原因与护理措施,为临床实践总结经验.方法:我院于2018年6月至2019年1月期间收治的行剖宫产的高龄产妇中,从中选择了92例作为本次研究的病

期刊

高龄产妇产后出血剖宫产并发症

优化小组培训模式在新护士岗前技能训练中的应用体会

目的:研究优化小组培训模式在新护士岗前技能训练中的应用效果.方法:选取二零一八年一月至二零一九年一月我院招聘入职的60名新护士,观察新护士的平均考核成绩、岗前技能训练

期刊

优化小组培训模式新护士岗前技能训练应用体会

澳门回归之际的一点思考

期刊

胜利一国两制社会主义社会稳定民族团结改革开放澳门人民回归

依托咪酯对成年大鼠视神经切断后视网膜神经节细胞的保护作用

成年哺乳类动物中枢神经系统(Central Nervous System, CNS)神经元缺乏分裂增殖能力,一旦死亡,往往导致永久性功能缺陷。视网膜来源于神经外胚层,属于CNS的一部分;视网膜神经节细胞(retinal ganglion cells, RGCs)位于视网膜最内层—神经节细胞层,是视网膜内唯一向脑内投射的一类神经元;视神经(optic neve, ON)由RGCs的一段轴突所组成,属

学位

依托咪酯12-丙二醇视网膜神经节细胞视神经切断神经元存活成年大鼠

主动声呐发射波形设计与抗混响方法研究

从主动声呐的产生起，混响就一直是其主要的干扰源。尤其当主动声呐工作在浅海时，由于受到更多界面散射的影响，混响更是影响主动声呐探测的最主要因素之一。所以如何有效减少混响

学位

主动声呐波形设计混响抑制单元散射模型预白化

反对唯心主义树立科学信仰

期刊

反对唯心主义社会主义初级阶段非无产阶级思想物质文明建设精神文明建设文明程度改革开放封建迷信学说地区成绩

全程健康教育模式在慢性肾病护理管理中的应用与研究

目的:研究慢性肾病护理管理中执行全程健康教育模式的应用效果.方法:依据患者入院就诊时间将我院自2018年9月至2019年9月期间收治的58例慢性肾病患者随机分为参照组(n=29)与

期刊

慢性肾病全程健康教育模式护理满意度

基于深度学习的音乐自动标注算法研究

与本文相关的学术论文