基于音乐字模型的音乐内容识别和推荐技术的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:yingxiong324
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在音乐信息检索领域中,基于内容的音乐识别和基于内容的音乐推荐是极具市场价值的两个应用。在本文中,这两个问题将在一个统一的、基于音频音乐字模型的音乐表示框架下被讨论。  首先,通过聚类构建了一个音频音乐字典。参与聚类的音乐作品涵盖了中西方音乐的主要流派,共计8,945首音乐,约280小时。将参与聚类的音乐数据切分成无重叠的音乐帧,每一个音乐帧时长为20 ms。借助于Constant-Q变换,一个音乐帧可以由一个84维的向量表示。在Constant-Q变换中,本文共考虑了7个八度(频率范围从55 Hz到7040 Hz),每个八度对应一个12维的子向量。聚类算法采用Spherical K-means,其主要特点在于使用了夹角余弦作为相似性度量函数,使得音乐字不受音乐音量变化的影响。为增强音乐字模型的表达能力,本文对7个八度分别进行了聚类,7个聚类质心集合组成了最终的音乐字典。  其次,基于音乐字典,提出了音乐的两种表示方式:音乐字序列表示和音乐字直方图表示。两首音乐的相似性由对应音乐表示的相似性来决定。音乐字序列表示保持了音乐帧之间的时序信息,数据量大,是音乐细匹配的基础。音乐字直方图表示忽略了音乐帧之间的时序信息,数据量小,是音乐粗匹配的基础。  最后,基于音乐字典及其两种表示,本文设计、实现了一个高效的、可伸缩的二级检索系统。实验结果表明,对基于内容的音乐识别问题,音乐字模型在准确率和内存需求方面都明显优于现有的音频指纹模型。尤其是在对噪音的鲁棒性方面,音乐字模型的表现更好。对基于内容的音乐推荐问题,本文通过人工打分的方式对推荐效果进行了评价,平均打分为5.5(分数范围从1-9)。
其他文献
"基于预案库的智能决策支持系统的研究"是以现代社会中的突发性事件应急处理为背景,为决策者提供了一个处理突发性事件的决策平台,并能及时、准确地辅助生成决策方案,起到提
该文研究的基本思路是将体视化技术引入三维地质模拟当中,综合应用传统的计算机图形学技术和体视化技术建立起一个地质体的体元填充模型,这样的一个模型既表达了地质体的几何
近年来,随着生活水平的提高,人们对于个人健康的关注度也越来越高。高血压作为一种常见的慢性病,是严重危害人们健康的最常见疾病之一,在全球范围内是一个重大公共卫生问题。高血
该文主要讨论数据挖掘中的分类技术,重点研究了决策树归纳分类、贝叶斯分类、贝叶斯网络、粗糙集分类等方法.并对以上这些方法进行了比较.其中在决策树归纳分类中主要讨论了S
该学位论文着重讨论基于Sprite技术的视频编码和分割算法.首先,该文提出了一种快速鲁棒的Sprite生成算法,并以离线背景Sprite生成为例进行描述.尽管MPEG-4标准包含了静态Spri
随着IPv6的兴起,研究如何从IPv4渐进地,无缝地过渡到IPv6成了一个热门话题.目前,对于从IPv4向IPv6过渡技术主要有双协议栈、隧道技术和NAT-PT技术.当IPv4节点在NAT后,如何接
随着Web服务的迅速发展,Web服务的服务质量(QoS)成了判定Web服务是否成功的重要因素.然而,由于Web服务还是个新生事物,许多方面的技术还不成熟.该文提出了利用简单对象访问协
数据仓库和数据挖掘是数据库研究、开发和应用最活跃的分支之一。所谓数据仓库,就是把一个单位的历史数据收集到一个中央仓库中以便于处理,它是支持决策过程的,面向主题的、集成
随着虚拟现实技术的发展,虚拟现实平台已不仅仅作为一个仿真模拟的交互平台,虚拟现实平台也可以作为搜集、组织和呈现现实社会信息的工具。如何在虚拟现实平台的基础上采集、组
软件不仅仅是程序,软件的构造应该遵循工程的方法.着眼于软件系统整体结构的软件体系结构成为软件工程研究的中心问题.软件体系结构的基本组成元素及其配置,基本元素的行为及