基于深度神经网络的音乐自动标注技术研究

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:GWstars
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字音乐市场飞速发展带来了海量的数字音乐资源,在此背景下作为音乐的结构化信息组织方式的标签越来越重要。音乐标注一般是指通过生成音乐标签来对高层次的音乐语义进行描述,利用生成的音乐标签可以实现对大量音乐资源的高效管理、快速检索甚至个性化推荐。目前工业界常用的解决音乐标注问题的方法,如人工标注、社会化标注等方式在数字音乐时代都面临着成本和质量问题。解决这一问题最有效途径之一就是提升自动标注模型的预测效果,基于内容的音乐标注任务成为了目前工业界和学术界的一个研究重点。然而传统的标注算法中仍存在着很多亟待解决的问题,包括特征设计过程中的噪声、分类器浅层结构的限制以及信号分析的短时间范围。近年来深度学习算法在学术界备受关注,其在图像、语音领域取得的进展表明该算法在音乐信息检索领域有很大潜力,可以期待其全面提升自动音乐标注任务的完成度,基于深度神经网络的音乐自动标注模型引起了研究者们的广泛关注。本文采用了以卷积神经网络和循环神经网络为代表的深度学习算法,主要针对华语歌曲,利用音乐在时间上的相关性从音乐的歌词文本、音频信号等原始信息中提取出高层抽象属性。由于目前音乐信息检索领域十分缺乏完整的中文音乐标注数据集,本文还构建了两个完备的标注音乐数据集以供进行实验验证。首先本文以歌词文本的字向量作为输入信息,提出了基于卷积神经网络的音乐自动标注模型。通过实验探讨了不同的输入表示方法、网络结构和超参数对模型性能的影响,验证了基于卷积神经网络的音乐标注模型的优良性能。然后本文以音频信号的梅尔频谱作为输入信息,提出了基于卷积神经网络的音乐自动标注模型,并在多个数据集上对模型效果进行了验证。还联合卷积神经网络和循环神经网络提出了一个混合网络结构模型,结合了两种网络结构的特性从音频信号中分段抽取深层表示再构成序列,有效地提高了自动标注效果。最后本文在前两个工作的基础上进一步提出了基于深度神经网络的多模态音乐自动标注模型。同时使用歌曲的音频信号和歌词文本,通过卷积神经网络分别提取歌词和音频的深层语义特征,然后将两种深度特征联合起来训练模型输出音乐标签。通过实验证明,该多模态音乐自动标注模型相比于仅输入音频信号或仅歌词文本的音乐自动标注模型效果均有所提高。
其他文献
针对山西长城微光器材股份有限公司新型闪烁晶体材料的研制需求,研究了一种针对某闪烁晶体受X射线激发后光谱响应的多参数综合光电检测系统。通过系统的光谱输出接口直接测试
以不同浓度(0.005-0.2mmol·L^-1)的外源水杨酸(SA)预处理水稻种子协优46(抗水稻白叶枯病)和浙辐802(高感水稻白叶枯病)。结果表明:低浓度SA预处理促进水稻种子萌发,两品种在发芽率、
2009年,风冈县拟创建国家级计划生育优质服务先进县,县委、县政府将着重加强人口计生工作的软件、硬件建设,采取四大措施保障人口计生工作创“国优”。
应用光学显微镜、电子拉力机、导电仪和硬度计等仪器,研究了Cu-0.1%Fe-0.03%P铜合金框架材料的生产过程和它的形变时效机理及在性能方面与国外同类产品进行了比较.结果表明,
针对我国近年来出生人口性别比失调现象,从法制的角度,分析了我国社会转型期的相关法律、法规,认为相关法律、法规不能有效调整人们的行为或者立法落后、缺乏社会性别意识,强化了
所谓"沉浸式体验"教学,就是依托各种情境促使学生亲历其中,目的是更有效地促使学生展开更深层面的思考,并就此形成有意义的学习过程.在高中物理教学中,开展"沉浸式体验"教学
小型光谱仪较多地采用Czerny-Turner(切尼—特纳)光路结构,其设计应遵循Shafer消彗差原理消除中心波长处的初级彗差并尽量平直整个谱面以提高分辨率。但常规设计并未考虑非中心
利用有关统计资料,考察我国生育保险制度的实施现状可见:现行生育保险制度存在着覆盖面窄、待遇水平低、保险金未实现社会统筹、保险立法滞后等问题,生育保险法制建设亟待加强。
近几年来,江苏省高邮市牢固树立科学发展观,系统地建立人口计生工作六项机制,人口和计划生育事业得到了快速发展,先后获得10多项国家和省级表彰奖励,去年又顺利通过了创建“十一五
<正>黄桥决战前,父亲在新四军江南指挥部军法处。决战后,调到海安、泰县任治安科长,主要任务是保卫胡服(刘少奇)。皖南事变后,局势日趋紧张,1941年2月,父亲和陈伟达一起前往
会议