基于深度学习的音乐自动标注算法研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:jianxieshui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WEB3.0等领域的飞速发展为数字音乐的共享和传播提供了便利的同时,也使得在线音乐的数量呈爆炸式增长,引发了信息过载问题。一个可行的方法是对音乐进行标注。但是,人工标注非常耗费人力成本以及时间成本,因此我们需要计算机来为我们进行自动标注。  目前,未标注的歌曲数量远远超过了已标注歌曲的数量,造成训练数据极度匮乏的问题,从而无法对自动标注模型进行有效的训练。针对这一问题,本文提出了一种基于混合判别玻尔兹曼机(Hybrid Discriminative Restricted Boltzmann Machines,HDRBM)的自动标注算法。该算法通过融合算法结合了生成模型和判别模型的优势,从而解决了因缺乏数据集而导致的训练不充分的问题。同时,本文在HDRBM中加入了Dropout规则化方法进一步避免了由于训练数据匮乏所造成的过拟合问题。实验结果表明,一方面,HDRBM在训练数据集充足的情况下能达到与单一的判别玻尔兹曼机相当的效果,并且比SVM高了8%左右,另一方面,当在小规模训练集上训练时,HDRBM的准确度相比单一的判别玻尔兹曼机高了2%左右,比SVM高了5%左右。  尽管HDRBM能够在训练样本匮乏的情况下得到较为准确的标注结果,但仍是基于浅层特征的学习,依赖于人工提取的音乐特征,无法有效融合能表现音乐特性的多种乐理信息,因此很难达到理想的效果。为了进一步提高自动标注的准确性和有效性,本文研究了基于深度学习的音乐特性表示方法,并提出了一种基于卷积神经网络(Convolutional Neural Networks,CNN)和长短时记忆神经网络相结合(Long Short TermMemory,LSTM)的音乐自动标注模型。该模型通过构建多分辨率CNN结构实现了多乐理特征的联合提取,并利用LSTM对相邻音乐片段之间的时序特性进行分析以考虑音乐的长效结构信息。实验结果表明该模型在音乐的舞曲、流派、以及情感标注中均达到了非常高的标注准确率,远远超过了传统的基于手工特征提取或是其他基于深度学习模型的自动标注算法,并具有很强的泛化能力。
其他文献
目的:探析助产士职业暴露的危险因素及防护措施.方法:选取本院9名实施专项化职业暴露风险防范措施的助产士为研究对象,采取调查问卷以回顾性分析助产士职业暴露的危险因素,分
目的:研究对骨科急性创伤患者提供干预护理后患者应激性血糖升高的情况.方法:取2016.5~2017.5,在我院进行治疗骨科手术的患者共53例,将所有患者随机分为两组,常规护理组27人,
目的:探讨高龄产妇剖宫产产后出血的原因与护理措施,为临床实践总结经验.方法:我院于2018年6月至2019年1月期间收治的行剖宫产的高龄产妇中,从中选择了92例作为本次研究的病
目的:研究优化小组培训模式在新护士岗前技能训练中的应用效果.方法:选取二零一八年一月至二零一九年一月我院招聘入职的60名新护士,观察新护士的平均考核成绩、岗前技能训练
成年哺乳类动物中枢神经系统(Central Nervous System, CNS)神经元缺乏分裂增殖能力,一旦死亡,往往导致永久性功能缺陷。视网膜来源于神经外胚层,属于CNS的一部分;视网膜神经节细胞(retinal ganglion cells, RGCs)位于视网膜最内层—神经节细胞层,是视网膜内唯一向脑内投射的一类神经元;视神经(optic neve, ON)由RGCs的一段轴突所组成,属
从主动声呐的产生起,混响就一直是其主要的干扰源。尤其当主动声呐工作在浅海时,由于受到更多界面散射的影响,混响更是影响主动声呐探测的最主要因素之一。所以如何有效减少混响
目的:研究慢性肾病护理管理中执行全程健康教育模式的应用效果.方法:依据患者入院就诊时间将我院自2018年9月至2019年9月期间收治的58例慢性肾病患者随机分为参照组(n=29)与