论文部分内容阅读
随着基于内容音频检索技术的发展和应用,如何提取和分析音频的语义内容和结构化信息,是音频信息深度分析、处理以及音频应用的关键,而音频分割和聚类技术是音频结构化的基础,是解决该问题的关键技术。
连续音频信号流从一种音频信号转变到另一种音频信号时,某些听觉特征会发生变化,前后差异较大。音频分割就是利用这种差异性,在变换的地方进行切分,把连续的音频流分割成长短不一的音频单元。待分割算法检测出改变点后,得到若干个音频段。由于事先并不知道这些音频段中包含了多少个说话人以及多少个音频类,因此我们需要对这些音频段进行无监督的聚类。本文主要对小波域音频特征、基于BIC的音频分割算法以及基于可变带宽的Mean Shift音频聚类算法进行了研究。主要工作如下:
首先,利用多分辨分析的优势,给出了基于小波域的音频特征。该方法以小波变换为理论基础,分析了基于帧的音频特征和基于音频段的音频特征,较好的解决了基于时域和基于频域的特征无法描述信号时频局部性质的不足。为后续的音频聚类技术打下基础。
然后针对目前BIC(Bayesian Information Criterion)音频分割算法中冗余分割点过多,导致准确率及召回率下降的问题,本文提出了改进的BIC分割算法。该方法首先采用固定窗口BIC方法检测出潜在的候选分割点,然后通过BIC对这些潜在分割点区域进行检验,检测出真实分割点或固定窗法漏检的分割点。实验结果表明,该方法与传统的BIC算法和目前一些基于BIC的改进算法相比,大大提高了其准确率,召回率及综合性能。
最后鉴于固定带宽Mean Shift算法中带宽参数这一影响因子,提出了一种自适应带宽的Mean Shift音频聚类算法。该方法首先对需要聚类的音频段提取小波域特征,并采用PCA变换来消除音频特征间的相关性和冗余信息;然后采用自适应带宽的Mean Shift算法对音频段进行聚类;最后输出聚类结果。实验结果表明,本文选取的小波域音频特征比较好的表示了音频的语义信息,且该算法与固定带宽的MeanShift算法相比,提高了聚类的精度,使聚类更细化。