复杂音频分类中的关键问题研究

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户：lzwyy198552

【摘要】

：

音频信息,是人类所能感知的一种重要信息形态。近年来,随着网络上音视频多媒体信息的迅猛增加,如何将海量的音视频文件按照语义描述进行管理和查找已经成为迫切需要解决的问

【作者】

：

王荣燕

【出处】

：

北京邮电大学

【发表日期】

：

2011年01期

【关键词】

：

音频分类特征选择样本选择半监督学习生成式模型区分式模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

音频信息,是人类所能感知的一种重要信息形态。近年来,随着网络上音视频多媒体信息的迅猛增加,如何将海量的音视频文件按照语义描述进行管理和查找已经成为迫切需要解决的问题。音频分类,作为其中最关键的问题,已经逐渐成为理论研究和实际应用的一个新热点。本论文围绕复杂环境下音频流分类问题,对复杂环境下样本选择、多类别音频特征选取以及复杂环境下的半监督学习等展开研究,具体研究工作和创新点包括：1)提出基于聚类的待标记训练样本选择算法。基于样本的学习方法是设计分类器最有效的方法,因而训练样本的数量和质量自然成为影响分类器性能最关键的因素之一。本文针对复杂音频环境下标注工作量大并且标注困难的问题,提出从未标记音频片段中选择对分类更有效的样本进行人工标注的思想,在无监督信息的条件下,通过聚类挖掘音频流中的有用音频片段并对其进行标注。从而达到在同等标注工作量的条件下,提高分类器精度的目的。2)提出一种GDM (Gaussian Mixture Model based Discrimination Maximization)过滤式特征选择算法。音频特征,是影响音频分类器性能的另一关键因素。对于有限的训练样本,我们希望用尽可能少的特征实现具有良好泛化能力的分类器。传统过滤式特征选择算法是基于单高斯分布假设的,对于复杂环境下的音频分类问题,很多音频类型对应的样本分布比较复杂,无法用简单的高斯分布进行描述；同时,不同音频类别间的区分性特征会有所差异,选择使所有类别间平均分类准确率最大的特征是一种自然的策略,但这种策略常常会受易分类别较大的影响。而实际上,提高容易混淆类别间的分类精度是问题的关键。因此,本文提出一种GDM过滤式特征选择算法,提出用不同类别GMM(Gaussian Mixture Model)间的距离作为类别间分离度度量,选择对易混淆类别具有最好区分性的特征。3)提出一种基于高斯混合分量聚类的Fisher得分空间分类算法。影响分类器性能的因素除了训练样本和特征外还有分类模型。目前,统计模型学习算法分为生成式模型(如GMM)和区分式模型(如SVM, Support Vector Machine)。在有限的训练样本情况下,本文采用SVM作为最终分类器。针对SVM需求等长度特征矢量的要求,采用基于GMM描述样本分布细节的Fisher得分空间变换函数,将不等长的音频片段特征变成等长的Fisher空间的特征。并针对合并各类GMM时所产生的特征维数过高问题,提出基于高斯混合分量聚类的Fisher得分空间分类算法。4)提出一种基于置信度和聚类的未标记样本选择算法用于半监督学习。针对复杂环境下音频标注工作困难这一问题,将半监督学习算法引入到音频分类问题中。在应用TSVM(Transductive SVM)分类器时,发现其分类性能并不是随着未标记样本的增多不断提高,这说明在有限的己标记样本情况下,不是任意的未标记样本对半监督学习都能有所帮助,针对这一特殊问题,本文提出一种基于置信度和聚类的未标记样本选择算法。实验结果表明,通过该算法选出的未标记样本用于半监督学习时比将所有样本用于半监督学习时平均分类准确提高显著。

其他文献

七孔坝石灰石矿边坡稳定性分析研究

文中分析了七孔坝石灰石矿开采边坡的主要特点、破坏条件,以及在天然、降雨情况下边坡的稳定性情况,研究了废弃石灰石矿破坏的主要影响因素。通过极限平衡法进行安全性分析发

期刊

石灰石矿边坡稳定性极限平衡法降雨

反思的力量——论《写文化》中民族志的悖论

<正>《写文化》一书以其犀利的后现代风格对传统民族志的研究模式进行了深刻的反思,其中几个关于民族志的著名悖论尤其引人注意。本文将试图探讨这些悖论及其背后的意义,以此

期刊

实验民族志后现代异文化《写文化》田野工作克拉潘人类学家整体主义

PAN基ACF的结构表征—XPS与元素分析

采用Ｘ射线光电子能谱与元素分析研究了聚丙烯腈基活性炭纤维的表面与本体的元素组成，相对含量以及表面含氧官能团的类型。实验结果表明：ＰＡＮ基ＡＣＦ的主体元素组成为Ｃ、Ｏ、Ｎ、Ｈ。ＡＣＦ的表面Ｃ含量大

期刊

PAN基ACFXPS表面结构

媒介融合背景下的党报改革

<正>转变观念、改革体制、面向市场,以多媒体的平台为契机,进行全方位的改革,实行跨媒介经营,更好地提高自己的传媒影响力,宣传党的政策、反映民众心声。一、媒介融合的时代

期刊

党报改革媒介融合背景

组织学生军训应遵循的原则

<正> 在领导体制上,必须建立军地结合、上下衔接的领导实体。目前,学生军训工作主要由地方教育部门和军队有关业务部门临时选配或指定几名同志代管或兼管。采用这种办法仅负

期刊

学生军训预备役军官地方教育部门

资产证券化离岸运作若干法律问题研究

源于美国的资产证券化融资技术,现在已广泛应用于世界众多国家。资产证券化的继受国在引入此项融资技术之初为了克服国内法律障碍多采用离岸运作方式。除了规避法律之外,采用

学位

资产证券化离岸运作SPV真实出售

高等医学院校双语教学实施效果的调查与分析

医学院校中开展双语教学工作是医学专业课程的建设以及发展的要求，同时也是我国实行素质教育的要求。而医学院校双语教学工作实施中，由于存在各种问题，使得教学效果一直不太理想

期刊

医学院校双语教学调查

省军区系统军事工作需在四个方面求突破

<正> 我国加入WTO后,给各方面的工作都带来了机遇和挑战,省军区系统作为地方党委的军事部、政府的兵役机关如何抓住机遇,做好地方性军事工作是摆在我们面前的重要课题。我认

期刊

省军区系统地方性WTO预备役工作四个方面

福州市晋安区旅游市场监管研究

随着中国经济的飞速发展,人们口袋中的闲钱也越来越多,出门旅游已成为当地中国人热门的休闲娱乐方式,各地区也不断加快旅游市场的发展和建设,通过发展全域旅游行业带动当地的

学位

晋安区旅游市场旅游市场监管

近代上海城墙的建与拆

近代上海曾经有过城墙,还很具规模和气势,现在已很少被人谈起。有意思的是,当年建上海城墙是因为外敌入侵,后来拆除城墙也是因为外敌入侵。所不同的是,入侵者的国度不尽划一,

期刊

上海城墙上海县李平书

复杂音频分类中的关键问题研究

与本文相关的学术论文