基于任务关联特征建模的音频分类方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:kaofzp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的发展,音频内容分析对海量数据的存储和利用有着越来越重要的作用,但目前存在的声学特征已经无法很好地表征日渐复杂的音频内容,也无法满足人们越来越高的分类精度的要求。对此,本文在认真总结前人关于音频分类与特征变换的基础上,提出了一系列的基于任务关联的音频特征建模方法,通过对低层特征进行建模,可以得到更符合当前分类任务的高层特征。本文的主要工作和创新点如下:  (1)针对环境声分类任务,提出了一种通过发掘音频细节来描述音频内容的特征建模方法。我们认为音频的内容可以通过一些表达音频细节要素的描述单元(“音频单元”)来表述,这些“音频单元”通过不同的组合规则形成不同类别的音频,通过识别这些“音频单元”的分布,可以区分不同的音频类别。本文在传统bag-of-word模型的框架之上,提出了一种新的生成“音频单元”的方法,采用自组织映射神经网络来表征“音频单元”,相比传统方法采用k-means聚类得到的聚类中心来表征而言,这种生成方法可以通过足够多的训练步骤和较好的训练策略来尽量避免生成的“音频单元”集合出现局部最优问题。接着,本文提出了一种基于多元投票法的策略来生成描述“音频单元”分布的概率直方图,相比现存的矢量量化方法而言,该方法对边界点更鲁棒。  (2)针对小数据分类任务,提出了一种能提高小数据音乐流派分类性能的深度学习特征建模方法。我们需要大量的标注数据来训练一个鲁棒的深度神经网络模型,虽然周围充斥着大量的数据,但是大数据标注的成本过高,在很多任务中一般无法获得足够多的标注数据。数据量过少,容易造成深度模型过拟合,虽然可以通过一些无监督的方法利用无标注的数据,但是在许多任务中,这种方法的效果并不明显。针对标注数据缺乏的问题,本文提出了一种融合半监督的迁移学习和bottleneck DNN对音频特征进行建模的方法,利用无标注的集外数据进行半监督地训练迁移学习模型,然后结合bottleneck DNN模型进行特征建模,实验结果在测评数据库上得到了最高的结果。  (3)针对音乐流派分类任务,提出了一种融合时序信息特征和统计特征的段特征建模方法。音频的时序信息是音频文件的一个重要特性,对音频内容的表征有着重要的作用。为了提取包含时序信息的音频特征,本文采用长短时记忆递归神经网络(LSTM-RNN)进行时序建模,但时序建模存在着一些缺陷,导致采用多数投票得到的段正确率提高不明显。为此,本文首先尝试将时序特征和原始特征进行融合建模,但直接将带有时序信息的帧级别时序特征与不带时序信息的帧级别的原始特征融合,将会造成混淆,影响特征的区分性。为此,本文提出融合时序信息特征和统计段特征的段特征建模方法,对帧特征进一步提取统计段特征再进行融合,得到最终的融合段特征。实验证明,融合的段特征相比原来的特征更具有区分性,在实验中取得了较好的分类效果。  (4)针对音乐流派分类任务,提出了一种利用集外数据学习“音频单元”的段特征建模方法。一段音乐信号完美的表征形式一定包含着许多的重要特性,如节拍、旋律、响度、歌手信息、所用乐器或者其他特征描述等等,但是目前这些特性的提取(如旋律)并没有一个很好的方法。本文并不直接地学习这些特性的表达,而是从另外的角度出发,用更详细的描述单元(“音频单元”)来描述。本文采用高斯分布来拟合并生成不同的“音频单元”,假设每种音乐类别可以用一个高斯混合模型描述,而高斯混合模型中每个高斯分量都可以看作一个“音频单元”。在基于Ⅰ-vector的特征建模框架中,采用基于高斯混合模型的全局背景模型(GMM-UBM)进行无监督地学习“音频单元”。在理论上,如果有足够多的数据和高斯个数,高斯混合模型可以拟合任意的数据分布。因此为了使学到的“音频单元”更充分,本文结合了Multilingual模型,通过网上下载的大量的无标签的音乐数据训练GMM-UBM模型,得到最终的基于MultilingualⅠ-vector的“音频单元”表征的特征,实验证明通过该方法得到的特征能很好地表征音乐信号内容,实验的成功对网上无标签数据的利用有着重要的意义。
其他文献
激光全息图片一般被称为光学可变图像,现广泛应用于各行各业的防伪业务中。随着激光全息技术的不断发展,光学可变图像的发展主要有两个方向:一是与其他多种技术融合,将激光全息技
光子束聚焦无掩模光刻机是纳米量级器件和极大规模集成电路制造关键装备,图形发生器是该装备的核心部件,它的主要功能模块包括:窗口裁减,尺寸修正,场切割,黑白翻转,轮廓化以
学位
随着印刷行业飞速发展,印刷技术的不断进步,传统的印刷品检测方法已无法满足印刷生产的高度自动化、印刷品种类和图样多样化的要求。基于机器视觉的检测技术因其检测速度快、检
危害公共安全、妨碍社会正常秩序的涉贪涉恐涉黑犯罪是目前最为严重的犯罪行为,作案手段极其复杂,打击难度大,对公民和国家造成了极大损失。在实际侦查中,这类犯罪的作案人往往具
本文主要研究了一种水下自主机器人--自主机器鱼基于视觉的自主定位问题。旨在构建一个完整的视觉定位系统,使自主机器鱼能够依赖单个摄像头,通过采集到的场景图像来实时确定
随着人类社会进入智能化的大数据时代,海量增长的图像资源和日益普及的智能设备都要求我们实现更加有效的图像语义解析,对图像内容进行快速、准确地理解。图像语义分割作为一种
无刷直流电机(Brushless DC Motor,BLDCM)是随着电力电子技术的不断成熟而发展起来的一种新型的电机。由于采用了电子换向装置,它克服了有刷直流电机的机械换向所带来的电火
作为数字地球基础的航测图像,在国土资源调查、森林防火、减灾、城市规划、特大工程设计等方面的应用越来越广泛。航空摄影测量需求数字航测相机应同时具备高分辨率和大视场
学位
功能近红外光谱成像技术是新近发展起来的一种利用近红外光来检测组织血氧变化的无创新型光学脑功能成像技术。该技术可以同时提取大脑含氧血红蛋白、脱氧血红蛋白以及总血红
电子罗盘能够利用地磁场来精确测量方位角,因此它在航空航天、航海、浮标、水下定向、钻井设备、机器人定向、陆地天线、气象中的风向仪、地震监测等领域有着广泛的用途。目
学位