基于CNN-LSTM网络的音乐情感分类的研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户：hnxmyuandong

【摘要】

：

【作者】

：

陈长风

【出处】

：

杭州电子科技大学

【发表日期】

：

2021年04期

【关键词】

：

音乐情感分类多模态 CNN-LSTM Stacking 语谱图词向量

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

音乐中含有丰富的人类情感信息,研究音乐情感分类有助于对海量音乐数据进行组织和检索。由于音乐时长与组成复杂性,从中提取的情感特征表现出数量大、维度多以及难以分析的特点。现有音乐情感分类研究侧重于对音频或歌词进行单模态的分析,忽略了模态之间的相关性,存在一定程度的信息丢失。基于以上问题,通过构建多模态音乐情感分类系统,融合音频与歌词模态信息,能够有效的提高分类性能。针对音频分类,将真实音乐音频进行细粒度切分,并通过人声分离获取纯背景音片段,相较原始音频具有更好的分类性能。从中提取了语谱图和低级描述特征(Low Level Descriptors,LLDs),同时使用两种音频特征能够很好地提升分类效果,弥补单一特征的不足。针对歌词分类,采用词频-逆文件频率(Term Frequency-Inverse Document Frequency,TF-IDF)、卡方检验和改进的卡方检验三种向量空间模型以及Word2vec提取的词嵌入模型分别作为歌词文本的特征表示,经过支持向量机(Support Vector Machines,SVM)进行验证,改进的卡方检验方法考虑歌词语义的特殊性优化了参数大小,情感分类效果突出。针对单一特征的局限性以及单一网络分类方法的缺陷,本文通过利用卷积神经网络(Convolutional Neural Networks,CNN)的特征提取能力以及长短期记忆网络(Long Short-Term Memory,LSTM)对序列化数据处理的能力,并添加注意力机制,分别对音频与歌词构建了基于CNN-LSTM的单模态分类模型,用于情感分类输出。将组合网络的架构应用在音乐情感分类领域,并且对网络做出了改进,能够接受两种类别的特征数据输入,提高了分类准确性。与基础的SVM、CNN和LSTM分类方法进行对比,该模型在音频与歌词情感分类性能上都有较大提升,其中音频分类准确率达到68%,歌词分类准确率达到74%。为了融合模态情感信息,本文构建了三类多模态音乐情感分类系统。在特征级融合表示中,采用CNN-LSTM单模态分类模型来进行向量统一,避免了直接降维方法带来的分类缺陷。在决策级融合表示中,提出改进的Thayer维度决策融合方法,能够很好地利用模态之间的关联性。针对不同模态特征的异构性问题,本文提出了基于Stacking的多模态集成学习方法,获得了最佳性能表现,平均分类准确率达到78%,相比单模态的分类效果有较大的提升,具有较好的扩展性。

其他文献

基于机器学习的匿名Tor网站指纹识别研究

加密通信网络的目的是隐藏通信双方的关系和内容,一旦双方建立了加密通信网络,通信内容就会被加密,第三方的源和目标IP等路由信息也会被隐藏。当用户通过加密通信网络进行网页访问活动时产生的多次请求和应答的流量就是加密网页流量,使用网站指纹识别技术对这些加密网页流量进行识别,就可以在不破解用户加密数据的情况下得到用户访问的网页信息,对用户网络进行内容审查。在进行网站指纹识别时,其中最重要的一步就是确保进行

学位

Tor匿名网络网站指纹识别机器学习网页流量分割点识别数据包时序数据包截取

上市公司环境信息披露效果研究

随着我国经济实力不断提升和国际地位与日俱增,环境问题也成为我国目前关注的重点。对于环境这一宏观的研究对象,在我国,已经有大量的学者对于环境会计这一领域进行研究,大部

学位

高污染行业环境信息披露股价同步性企业价值

基于Android系统的VR流媒体平台研究与设计

随着网络技术的飞速发展,流媒体类型的新型娱乐方式应运而生,与此同时,随着三维图形软硬件技术的进步,虚拟现实(VR)技术也逐渐成为当今最火热的技术之一。本文着眼于VR技术与流媒体的结合,它将颠覆传统媒体的交互模式,能够更直观有效地传递信息内容,增强信息的感染力和交互性,让用户体验真正身临其境的感觉。VR流媒体将会是未来媒体娱乐发展的新方向,将会为传统媒体行业带来全新的转型机会,同时也将为流媒体与各行

学位

流媒体Android虚拟现实局域互连

基于生成对抗网络的异质人脸图像生成

异质人脸图像合成旨在使用算法生成逼真、可识别的多种视觉形态的人脸肖像,包括画像、漫画等多种模态。其在数字娱乐领域与刑侦领域中具有广泛应用。近年来,研究人员提出了大量基于生成对抗网络的异质人脸合成方法。不过,仍未有工作对异质人脸图像合成任务进行系统性的分析和总结。此外,现有方法对于人脸姿态、光照较为敏感,对于不可控条件下的人脸图像难以合成逼真的异质人脸图像。据此,本文的研究工作主要包含以下两点:(1

学位

异质人脸合成生成对抗网络人脸照片-画像合成图像风格迁移深度学习

阵列雷达基带回波模拟系统软件设计

在雷达系统的开发过程中,需要测试大量雷达性能指标,以发现雷达系统中的问题和不足,并及时进行改进。现场测试需要试飞,并且测试效率低下,灵活性不足,测试结果的准确性也会因外部环境因素的干扰而产生明显的影响,调试难度较高。与之不同的是,雷达回波模拟器是雷达技术与数字模拟技术的产物,不仅能够实时模拟雷达回波信号,还能够让雷达系统的测试信号与真实信号非常接近,使雷达系统的开发与测试更加高效便捷。将雷达信号模

学位

回波模拟阵列雷达雷达仿真系统实时性

车路协同中的局部路径规划研究

随着社会经济和科学技术的持续发展,道路交通问题逐渐成为日常生活关注的热点。我国社会建设科技发展至今,人民对出行提出了更高的要求。为解决交通资源的合理利用、交通拥堵以及车辆行驶安全等问题,我国在2011年提出了车路协同的概念。若能将人工智能领域的先进成果与汽车产业、道路建设与通信、互联网等领域进行深度融合,则会对我们建设现代化车路协同道路产生重要价值。因此,本文在研究强化学习基础上对车路协同系统中的

学位

强化学习局部路径规划演员-评论家框架回溯型Q学习算法多层经验AC算法

MIMO雷达正交波形设计方法研究

MIMO雷达具有系统自由度高、抗截获能力强、多普勒分辨率好、弱目标检测能力突出等诸多优点,正交波形设计作为MIMO雷达领域的重要课题,受到了研究人员的广泛关注。MIMO正交波形性能通常体现在主副瓣比、正交性、主瓣宽度等几个方面。其中,主副瓣比越高系统对弱目标的检测能力就越强,正交性影响着匹配滤波对信号的恢复效果,主瓣宽度则体现了雷达系统的距离分辨率。本文围绕正交相位编码波形设计和正交频分非线性调频

学位

MIMO正交波形设计正交相位编码OFDM-NLFM信号

基于JavaScript的React一站式智能开发工具的设计与实现

随着互联网的快速发展,web前端技术不断地发展,各种前端框架层出不穷,其中React处于绝对的领先地位。同时,React是无数互联网公司主要的甚至是唯一的前端框架,然而目前市面上

学位

electronreact一站式智能

用于双屏悬浮显示的软件系统的设计与实现

悬浮显示是一种新型光场显示技术,在民事和军事领域具有重要的应用价值,针对悬浮显示内容进行控制和管理的软件系统的研究具有较大的应用意义。本文提出了一种应用于悬浮显示的内容管理方法,设计并开发了双屏悬浮显示的内容管理系统。该系统实现了用户对悬浮显示内容的远程管理,可以实现内容的实时推送,并在相应的双屏悬浮显示设备上显示。本文的主要研究工作与成果如下:1.制定了双屏悬浮显示内容管理系统的技术路线。确定了

学位

内容管理悬浮显示软件开发

CoFe2O4/FeCo及其复合材料的合成与微波吸收性能研究

近些年来,微波吸收材料在电磁环境以及军用隐身技术领域受到越来越多的关注。开发一种新型微波吸收材料,包括强吸收、厚度薄、带宽宽、质量轻,成为了目前迫切的要求。磁性金属Fe,Co及其合金由于优异的电磁性能在众多微波吸收剂中脱颖而出。本文以FeCo合金,CoFe2O4及其复合材料为研究对象,从合成工艺条件出发,得到了一系列性能优异的微波吸收材料。本文主要研究结论如下:(1)采用水热还原法,在不同保温时间

学位

FeCo合金CoFe2O4阻抗匹配微波吸收性能

基于CNN-LSTM网络的音乐情感分类的研究

与本文相关的学术论文