基于深度网络和哈希学习的音乐识别

来源 :南京信息工程大学 | 被引量 : 2次 | 上传用户:w998998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近随着互联网和数字音频技术的发展,音乐信息检索MIR(Music information retrieval)逐渐成为研究热点。其中,对音乐风格进行识别是一项重要的研究内容;此外,乐器、歌曲情绪等的识别也是研究热点。目前音乐信息检索领域的识别分类系统主要流程是先手动提取音乐特征,再对分类器进行训练建模,最后把音乐特征输入建好的模型中进行识别分类。但现在手动提取音乐特征技术遇到了瓶颈。深度学习作为一种新的特征提取技术,已在图像处理、自然语言理解等领域拥有了出色的表现,因此本文利用深度学习强大的特征提取功能发现更适用于音乐识别分类的音乐特征,并设计不同的网络结构,基于这些音乐特征进行识别分类。首先针对大多基于时间特征的音乐风格识别分类性能不佳的问题,提出了考虑时间和频率两方面特征的HPSS(Harmonic/Percussion Sound Separation)分离算法,把原始音乐信号谱图分离成时间特征谐波分量和频率特征冲击分量,并联合原始谱图一起作为卷积神经网络(ConvolutionalNeuralNetwork,CNN)的输入;然后设计了 CNN的网络结构以及研究了该网络结构中不同参数对识别率的影响。随着音频数据的迅猛增加,当前主要的识别方法是对视觉特征使用固定的编码步骤,但其缺少学习能力,导致特征的表达能力不强,而且视觉特征维数较高,严重制约了识别性能。针对这些问题,本文提出一种深度哈希学习方法,利用卷积循环神经网络生成有效的哈希码。首先对音乐信号进行预处理获得梅尔声谱图,梅尔声谱图是音乐识别的首选输入类型,然后输入预先训练的CNN中,从其卷积层提取卷积特征图,广泛利用空间细节和语义信息,对每个卷积层的特征图使用双线性插值和相似性选择策略构建特征图序列,再将其输入LSTM(Long Short-Term Memory)和哈希层,最后使用softmax进行识别分类时提出了一个新的损失函数,其中考虑了哈希层输出二进制哈希码时产生的量化误差,并同时保持了哈希码的语义相似性和平衡性。通过实验证明此方法可以比其他方法获得较好的性能。
其他文献
本文通过对国内酒店业的竞争现状,结合国外酒店行业信息化管理发展的历史规律及未来趋势,提出了在我国酒店业现状中所存在的亟待解决的问题并逐条总结了解决方案.以希望我国
采用完全混合式反应器R1、R2和R3(搅拌频率分别设为不搅拌、每10 min转动5 min和每10 min转动8min),在序批式运行的状态下,考察了不同搅拌频率对高含固厌氧消化过程中污泥流
近年来,计算机技术迅速发展,人与机器的交互模式正不断发生着改变,人们对机器使用变得越来越方便。交互模式开始从传统的基于键盘、鼠标的接触式控制向基于动作识别的体感交
智慧城市标准越来越成为智慧城市建设的热点问题,但智慧城市标准的实施现状却不容乐观。如何发挥标准的引领作用,成为中国智慧城市建设中的核心问题。本文对智慧城市发展不同
<正>我认为,60年来最具影响力的10本书是:《毛泽东选集》,第一、二、三卷,人民出版社,1952年版。《钢铁是怎样炼成的》,尼·奥斯特洛夫斯基著,人民文学出版社,1952年版。《鲁
社会化媒体作为一种给予用户极大参与空间的新型在线媒体,形成了一个以人与人的社会关系为基础的网络平台。社会化媒体具有的平民性、参与性、对话性、社区化等特征带来的快
目的:针对接受PFNA手术的老年高血压患者腰麻导致低血压这一问题,本课题以临床工作中在一定的容量负荷下应用α1-肾上腺素受体激动剂治疗术中低血压为基础,主要探讨甲氧明不
遗嘱信托(Probate Trust)是指遗嘱人通过立遗嘱的方式设立信托来处分遗产的制度,也称死后信托制度。遗嘱信托在信托业发达的国家,如美国,占据了整个信托业相当大的比重。但是
由于正弦波脉宽调制(SPWM)技术动态特性好,能明显地提高电动机的效率,因此在电机控制中得到了广泛的应用;介绍了以数字信号处理器SM320LF2407A为核心的温度闭环控制系统,采用SPWM技
期刊
研究表明偏头痛与卵圆孔未闭存在关联性。卵圆孔未闭缝隙非常小,超声心动图等检查方法容易出现误诊和漏诊。经颅多普勒发泡实验(c-TCD)诊断卵圆孔未闭有较高的敏感度和特异度