基于VGGish网络对音乐情感的分析

来源 :天津商业大学 | 被引量 : 0次 | 上传用户:kenmaxabc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在移动互联网的发展下催生了一批又一批以短视频为主要业务的互联网产品,如何做到产品的精准营销,针对不同的客户推荐合适视频,构建完整的用户画像已经成为时下比较热门的研究课题。现有的短视频推荐都是基于视频内容本身,很少与背景音乐情感特征标签相结合,本文从短视频背景音乐的情感标签出发,来探讨怎样做好精准推荐。人类的感情丰富,创作的音乐也是一种情感的表现方面,如何给音乐情感做好分类就是本文研究的核心。识别音乐情感的首要基础是语音识别,在这一领域已经有很多学者展开了研究,较多是对声音类别的判断,在音乐方面的识别主要是对音乐类型的识别,而在近几年对情感的识别也是行业研究的重点。本文选取了网易云音乐的1068首音频,每类按照7:2:1分为训练集、测试集和验证集。首先将歌曲分段,每30s为一段,将格式为wav的音频转换为梅尔频率倒谱频率即MFCC,将每段音频进行每0.96s为一帧,最后一帧的格式为96*64,其次将这样格式的一帧输入VGGish网络提取为128维的特征数组,所以每一个30秒的片段提取的特征embedding为30*128。由此实现了将非格式化的音频数据向格式化数据的转换,以便做后续研究。为了验证初始标签的准确性,即是否保证了同个标签下的数据具有相同的特征,而组间差异明显。本文选取可视化的方法来界定初始标签的准确性,但是提取的特征矩阵有128维,需要先进行降维才能实现可视化。在可视化的方法选择上,本文将传统的降维方法PCA和现在流行的t-sne降维方法进行比较,发现t-sne表现更好。通过最终可视化结果调整数据集结构,经过几次数据集的调整,降维可视化的数据每类的界限明显,重合部分甚少,即数据是可分的,这表明VGGish提取的音频信息全面,包含了音频的大部分特征。最后将音频数据特征embedding构建普通机器学习分类器svm,因为从可视化结果发现数据是线性不可分的,所以选择了高斯核,加大了惩罚系数C,但是svm的适用维度是20维左右,现在的特征embedding有128维超出了svm的最佳使用范围。介于svm的局限性,本文再建立了深度学习模型lstm来进行比较,确定最终的分类器选择,svm的准确率为85.2%,lstm的准确率为89.7%。本文通过VGGish网络提取音频数据特征,再通过降维可视化查看数据集分布保证样本的可分性和数据均衡性,再通过建立机器学习模型和深度学习模型来实现最终的特征分类,在测试集的表现上深度学习模型还是占有优势,克服了维度局限,保留更多的原始数据特征,在后续应用上选择深度学习模型。
其他文献
思维方式是语言生成和发展的深层机制,与语言密不可分.思维方式的差异是造成语言差异的一个重要原因,不同思维方式产生不同句式结构.在英语教学中,从中西方各自的思维方式入
探讨了建设大型流域梯级电站检修核心能力的要求和意义,分析了长江电力检修厂核心能力的建设工作,为形成一支具备流域梯级电站检修能力的国内一流水电检修团队提供了发展思路
目的探讨初治肺结核患者血清白细胞介素-12、13(IL-12、IL-13)水平改变及其临床意义,并了解其治疗的反应.方法采用酶联免疫双抗体夹心法(ELISA)检测肺结核患者治疗前、抗结核
起火时间是指起火点可燃物被起火源点燃的时间。查明起火时间有易有难。在起火现场中有当事人和见证人,他们提供证实起火时间比较明确,应该说是可信的。然而,更多的火灾尤其是在
本研究克隆、表达了猪繁殖与呼吸综合征病毒DY株(GenBank:JN864948)的Nsp7α蛋白,并利用Nsp7α作为包被蛋白建立了ELISA检测方法,并对检测条件进行了优化。结果显示,ELISA最
目的:探讨近视患者屈光度及性别与角膜中央厚度、角膜曲率和眼压的关系.方法:测量1108例(2189只眼)近视患者的角膜中央厚度(CCT)、水平角膜曲率(k1)、垂直角膜曲率(k2)及眼压(IOP)等数据,依
当今我国社区警务作为保障人民生命财产安全、服务群众、维护国家和生活稳定安全的一项重要工作,有着举足轻重的作用。随着国家经济发展,社会形势也变得日益复杂,各类案件、矛盾纠纷层出不穷,这就要求社区警务工作必须不断调整和优化以适应社会的发展。上海作为一个国际化大都市,社区警务工作的重要性不言而喻,本文以上海农村社区警务运行机制为研究对象,运用无增长改善论及协同治理理论,通过介绍上海农村社区警务运行机制现
棉花黄萎病除为害棉花以外,还能为害马铃薯、蚕豆、大豆、芝麻、茄子、辣椒和瓜类等农作物。为害棉花时,使它产量减少,品质变劣,发病早的,损失更严重。 In addition to the
通过数值模拟对环形空间设有导流板的旋风分离器进行了研究.与常规单入口旋风分离器相比,设置导流板显著改善了旋风分离器内的非轴对称流动,使流场的旋转中心与分离器的几何
目的建立一测多评(QAMS)法同时测定安神益脑丸中去甲蟛蜞菊内酯、蟛蜞菊内酯、酸枣仁皂苷A、酸枣仁皂苷B、白桦脂酸、红景天苷、女贞苷、特女贞苷8种成分的含量。方法以安神