论文部分内容阅读
音频信息,是人类所能感知的一种重要信息形态。近年来,随着网络上音视频多媒体信息的迅猛增加,如何将海量的音视频文件按照语义描述进行管理和查找已经成为迫切需要解决的问题。音频分类,作为其中最关键的问题,已经逐渐成为理论研究和实际应用的一个新热点。本论文围绕复杂环境下音频流分类问题,对复杂环境下样本选择、多类别音频特征选取以及复杂环境下的半监督学习等展开研究,具体研究工作和创新点包括:1)提出基于聚类的待标记训练样本选择算法。基于样本的学习方法是设计分类器最有效的方法,因而训练样本的数量和质量自然成为影响分类器性能最关键的因素之一。本文针对复杂音频环境下标注工作量大并且标注困难的问题,提出从未标记音频片段中选择对分类更有效的样本进行人工标注的思想,在无监督信息的条件下,通过聚类挖掘音频流中的有用音频片段并对其进行标注。从而达到在同等标注工作量的条件下,提高分类器精度的目的。2)提出一种GDM (Gaussian Mixture Model based Discrimination Maximization)过滤式特征选择算法。音频特征,是影响音频分类器性能的另一关键因素。对于有限的训练样本,我们希望用尽可能少的特征实现具有良好泛化能力的分类器。传统过滤式特征选择算法是基于单高斯分布假设的,对于复杂环境下的音频分类问题,很多音频类型对应的样本分布比较复杂,无法用简单的高斯分布进行描述;同时,不同音频类别间的区分性特征会有所差异,选择使所有类别间平均分类准确率最大的特征是一种自然的策略,但这种策略常常会受易分类别较大的影响。而实际上,提高容易混淆类别间的分类精度是问题的关键。因此,本文提出一种GDM过滤式特征选择算法,提出用不同类别GMM(Gaussian Mixture Model)间的距离作为类别间分离度度量,选择对易混淆类别具有最好区分性的特征。3)提出一种基于高斯混合分量聚类的Fisher得分空间分类算法。影响分类器性能的因素除了训练样本和特征外还有分类模型。目前,统计模型学习算法分为生成式模型(如GMM)和区分式模型(如SVM, Support Vector Machine)。在有限的训练样本情况下,本文采用SVM作为最终分类器。针对SVM需求等长度特征矢量的要求,采用基于GMM描述样本分布细节的Fisher得分空间变换函数,将不等长的音频片段特征变成等长的Fisher空间的特征。并针对合并各类GMM时所产生的特征维数过高问题,提出基于高斯混合分量聚类的Fisher得分空间分类算法。4)提出一种基于置信度和聚类的未标记样本选择算法用于半监督学习。针对复杂环境下音频标注工作困难这一问题,将半监督学习算法引入到音频分类问题中。在应用TSVM(Transductive SVM)分类器时,发现其分类性能并不是随着未标记样本的增多不断提高,这说明在有限的己标记样本情况下,不是任意的未标记样本对半监督学习都能有所帮助,针对这一特殊问题,本文提出一种基于置信度和聚类的未标记样本选择算法。实验结果表明,通过该算法选出的未标记样本用于半监督学习时比将所有样本用于半监督学习时平均分类准确提高显著。