基于小波变换的音频特征提取与分类研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:fighterok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频、图像和音频等多媒体数据已经成为信息处理领域的主要信息媒体,其中音频占有很重要地地位。传统的基于文本的检索存在主观性和不完整性等缺点,为此基于内容的音频检索成为未来必然的研究和应用方向。音频的特征提取与分类是音频检索的基础。如何基于不同的规则提取更加有效的特征以及如何根据提取的音频特征进行更有效的分类是本文的主要研究工作。 本文针对基于小波变换的音频特征提取和分类的关键技术展开分析,主要集中在以下两个方面:(1) 音频信号特征提取与分析。对不同变换域的特征进行表征,包括时域特征、频域特征以及时频域特征。主要是研究小波变换域的特征提取与特征描述,提取的特征包括质心、带宽、过零率、小波子带能量、基音频率等。基于不同的时间长度上的音频特征提取,主要包括基于短时音频帧的特征提取和基于音频片段的特征提取,其中基于音频片段的特征有相当一部分是在短时音频帧特征的基础上得到的,如质心、带宽等就是对每一帧韵质心带宽求均值得到的;静音比和零过零率比则是在短时帧特征的基础上通过求比运算得到的,当然也有基于整个音频片段的特征,如小波子带能量、近似子带过零率周期等。与传统的特征提取相比较,基于小波变换的特征提取能够减少运算量,节省时间。(2) 音频分类方法的研究。典型的音频分类算法有很多,包括神经网络法,隐马尔可夫模型法、支持向量机法、最近特征线法等。这些方法各有优劣,也有不同的适用性,本文主要研究隐马尔可夫模型方法和支持向量机方法在音频分类中的应用,并把两种分类算法结合起来设计新的分类算法,在隐马尔可夫模型训练中充分应用时间序列的优势,使用短时音频帧特征进行训练,得到样本在每个 HMM 模型下的概率,在 SVM 训练中则使用基于片段的音频特征与 HMM 概率特征进行训练,从而把音频分为纯语音、音乐、带背景音乐的语音和环境音四种类型,达到了比较好的分类效果。
其他文献
Ad Hoc网络是一种工作在无固定结构环境下的自组织的无线移动网络。它适用于军事或是一些特殊应用场合,例如,战场上部队快速展开和推进、发生地震或水灾后的营救等。在没有网络
地理信息系统(Geographic Information System,GIS)具有集成管理海量空间数据和属性数据的能力,被广泛地应用到各领域。随着其应用的深入,人们在业务应用中越来越重视空间数据和
糖尿病作为一种常见的慢性非传染性疾病,严重威胁人类健康。目前中国的糖尿病患者人数已经超过一亿。糖尿病患者长期有纪律的自我管理可以有效地防止并发症、将病情维持在安
电力系统实时信息软件依赖于多个不同功能的子系统,而各个子系统之间的传统的数据交换方式没有一个统一的标准,造成接口众多、访问性、安全性差等多方面的问题,从而形成了一
随着我国通信事业的发展和基础通信设施的建设,电信网的规模迅速扩大,同时国内电信市场的竞争也日益激烈。对于中国电信运营商的核心业务——网络运行维护工作来说,传统的电
随着计算密集型的嵌入式应用的不断扩展,对嵌入式平台的计算性能及功耗控制提出了更高的挑战,而嵌入式多核处理器能够实现高性能同时保持灵活性和动态低功耗性,已经成为嵌入
随着移动互联网,物联网,社交网络的潮流席卷全球,全球范围内产生的数据量迅猛增长,显然我们已步入大数据时代,同时数据类型已涵盖了文本、图像、视频、语音等绝大部分非结构
随着Internet中Web服务的数目和种类的增加,如何在诸多服务中找到符合要求的服务,即服务匹配,成为利用Web服务进行资源共享必须解决的问题。当前Web服务并没有以语义网为基础
本体作为语义网的基石,在语义网中起着越来越重要的作用,在经常变化的环境中,本体很难一成不变。为了有效的研究本体进化,本文从用户操作出发。首先设计了用于形式化用户操作的用
粗糙集理论不依赖于所需处理的数据集合之外的任何先验信息,它对不精确、不确定、不完整的信息和知识具有很强的分析处理能力。20世纪50年代末以来,关于粗糙集理论和应用的研