音乐情感识别中文本特征及泛化能力的研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:liongliong453
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字音乐的快速发展,用户需要更丰富的音乐库管理手段和更高质量的音乐服务。情感作为音乐的一个重要表现部分,是音乐检索和音乐推荐的重要媒介,因此歌曲情感识别成为音乐检索领域中的重要课题。本文针对中文流行音乐的情感分析,重点研究了其中的两个课题:音乐情感分类中文本特征构建及音乐情感回归泛化能力。  基于多模态的音乐情感识别已经成为主流方法,但是针对多模态中文本模态的研究尚处于初级阶段。以往针对文本褒贬倾向分析的文本特征不足以描述音乐细腻的情感,音乐歌词在不同类型词语的运用及字的韵律选择上有自己的特点;除此之外,音乐相关的社交文本也提供了针对音乐的丰富语义描述。本文将词性引入到语言生成模型中,并构建尾韵频率特征,基于这两种方法分别对词语类型和韵律进行了建模;并与传统的Uni-gram特征结合提升了基于歌词的音乐情感分类的效果。此外,针对中文环境下音乐社交网络的特点,本文使用了被大规模应用的播放列表进行音乐情感分析。基于播放列表标签我们得到音乐的描述,然后使用向量空间模型从描述中提取特征。在构建特征的过程中,通过对词表和播放列表筛选优化了基于播放列表社交文本进行情感预测的效果。在上述研究基础上本文将歌词特征、播放列表社交标签特征和传统的音频特征结合进行了多模态融合,结果表明多种特征之间具有互补性,通过多模态融合有效地提升了音乐情感分类的效果。  目前针对音乐情感回归的研究工作都是在实验室环境中的小数据集上进行的,而在实际系统中所处理的音乐数据集是百万量级,因此针对音乐情感回归模型泛化能力研究的工作具有重要意义。首先,本文验证了主动学习方法扩充训练集在提升模型泛化能力方面的有效性;针对音乐数据的特点,本文使用聚类质心初始化训练集,并基于样本空间密度进一步筛选扩充训练集;通过与其他训练集构建策略对比所训练模型的泛化能力,表明主动学习方法优于随机选择样本扩充训练集及半监督学习方法。此外,本文针对泛化能力相对较弱的愉悦度进行了深入研究。通过对传统回归器的预测错误及人类标注愉悦度的过程分析,本文采用一种启发式的先分类再回归的两层回归策略,该方法有效的解决了回归过程中部分样本愉悦度方向预测错误的问题,同时结合局部学习的优势,提高了回归的效果。  
其他文献
随着互联网信息的爆发和技术的不断成熟,针对网络视频的应用得到了飞速的发展,其用户规模和数据量都呈现着海量式的增长。这些驱使着需要更有效的方法对视频内容进行组织和管理
虚拟化技术具有资源共享、在线迁移、进程隔离等优点。它可以充分地利用计算资源,满足多种多样的计算需求,在集群、云计算方面起到了很大作用。图形处理器(Graphics Process Un
随着计算机网络技术的飞速发展和广泛应用,网络安全已经成为一个重要问题。在开放的分布式网络环境中,认证是最重要的安全机制之一,能有效地确保合法用户访问到安全的服务。  
虚拟化技术是云计算的核心技术之一,能够提高硬件资源的利用率,减少经营和投资开销。随着云计算的快速发展,虚拟化技术得到了更多的关注,然而其安全问题日益凸显。可信计算技术则
与传统的互联网相比,物联网中存在更为复杂和严重的安全问题,尤其在物联网感知层中,由于有数量众多的异构感知网,感知终端分布广泛、所处环境复杂,因而面对的安全问题例如安全组网
近年来,随着计算机硬件性能的急速提升,使用普通PC集群及液晶屏搭建多屏显示系统已成为可能。目前,高分辨率的多屏显示技术已经应用于越来越多的图像显示与数据可视化的系统,如三
SPH方法在计算机图形学领域有着广泛地应用。这篇文章介绍了与SPH流体仿真相关的几种算法。本文首先介绍了SPH流体仿真的框架,之后详细介绍了嵌入动态显式表面的SPH流体仿真算
双目立体视频是由两个摄像头从不同角度对同一场景进行采集得到的能在人眼中形成立体感知的两路视频数据,其数据量是传统平面视频的两倍。研究双路视频之间的相关性,对于提高双
近年来,随着云计算技术的发展,其面临的安全问题也越来越严重。可信云计算技术是利用可信计算技术来保障云计算环境安全的重要技术。当前的可信云计算架构主要是以Xen平台为
任务群计算(Many-Task Computing,MTC)是广泛应用于科学计算领域中的一种重要的计算模式,用于对松耦合大规模的科学计算任务进行求解。该计算模式下,一个复杂的问题可以被表达为