基于内容的音频检索方法研究

论文部分内容阅读

基于内容的音频检索是一个新兴的研究领域,在国内外仍处于研究、探索阶段。音频信号包括语音和非语音(Non-speech)两类信号。一直以来,音频信号的处理主要集中于语音识别、说话者识别等语音处理方面的研究。基于内容的音频信息识别技术的研究还不多。如何提取音频中的结构化信息和内容语义,使得无序的音频数据变得有序,是基于内容的音频检索技术能否得以实用的关键所在。只有在基于音频物理特征的识别技术方面有所突破,才可能在更高层次的基于知识辅助的音频检索方面做出更深入地研究。本文提出一种基于均值MFCC的音频信号识别算法,对MFCC系数进运算行了深入的分析。均值MFCC系数作为音频特征,采用动态时间规整识别算法,经过大量实验证明,这种方法能有效地对单一音频信号进行识别。本文的主要工作及研究成果如下:1、研究了常见的音频数据处理技术,对音频信号进行分帧处理,既考虑音频信号的短时平稳特性,又考虑音频信号本质非平稳特性,同时音频信号具有连续性,不同音频信号根据采样率不同来进行分帧和帧间迭加处理。2、研究了音频信号主要时、频特征;对部分时域、频域特征进行仿真,分析各种特征的应用情况。对音频信号的短时过零率、短时能量、MEL倒谱系数等进行主要分析。提出均值MFCC系数作为音频特征的方法。3、研究了音频信号的分层分割方法,基于短时能量和短时过零率对音频信号进行分类的方法,能够对语音、静音、谐音等进行分类。4、研究了单一音频信号的识别方法。通过对MFCC系数进行分析,均值MFCC系数作为音频特征,采用动态时间规整识别算法,能够对单一音频进行识别,对已有数据源进行测试,有较高的识别率。音频信号的处理作为项目的一部分,根据要求实现了对单一音频信号的识别,用VC6.0来实现。另外,进行音频信号仿真,对连续音频信号进行分层分割、音频信号的检索方面进行了较深入研究,为以后在这方面的研究奠定良好的基础。

与本文相关的学术论文