论文部分内容阅读
随着互联网技术的发展和手持录像、录音设备的普及,普通用户可以获取的多媒体数据呈现爆炸式增长。为了实现对海量多媒体数据的管理和检索,基于内容的检索技术成为了研究热点。这种检索方法要求用户直接给出反映查询意图的样例,系统从中提取反映内容信息的底层特征后在数据库中搜索相似的样本,因此该方法依赖于具有区分力的特征以及快速的检索算法。本文针对多媒体数据中的音频部分,以基于内容的音频检索为研究目标,以提取底层音频特征为核心研究内容,借鉴人脑对声音的感知方式,探索了基于稀疏表示的多种音频特征,提出了基于倒排索引的音频内容检索算法。本文主要工作及贡献如下:(1)基于人脑对谐波结构的感知特点,提出了一种基于谐波分量的频谱分解方法。设计一个能够在频域表达谐波结构的字典,该字典利用谐波基频、共振峰频率和泛音能量衰减速率等参数描述谐波结构。基于所设计字典,采用匹配追踪算法对信号频谱进行稀疏表示,然后将分解后原子参数的统计特性作为音频特征。16类闭集音效分类实验结果中,提出的谐波分量特征获得64.8%的分类效果,相对MFCC特征和谱特征,分别提升了7.4%和3.9%;与MFCC结合后,分类效果达到66.3%。(2)针对(1)中的谐波特征时间分辨率较差的问题,提出了基于人脑感知的时域分解模型。该模型依据人脑对音频中谐波、瞬时和残差成分的不同感知方式,将信号分解到各自子空间并分别对各分量进行时间-频率联合表示:分别使用具有良好时-频特性的Gabor字典,与人耳频率响应相吻合的Gammatone字典,以及噪声颜色对三个子空间进行描述。16类音效分类实验结果中,所提出的音频特征获得72.3%的分类效果,与MFCC、MFCC+MP和MFCC+MAXMP特征的分类结果相比,分别提升了14.9%,6.2%和4.7%。(3)针对(1)和(2)中使用的传统稀疏表示中系数向量对原子参数表征能力不足的缺点,提出了基于系数张量的音频特征表示方法,该系数张量利用张量的高阶特性,使用不同的阶(模)表示不同的参数,因此联合地描述了信号中各Gabor分量的时间、频率和长度信息,得到信号的联合时间-频率-长度表示。给出了一种非负稀疏张量的分解算法,利用张量内的稀疏度作为惩罚参数以避免过拟合,从张量中分解出时间、频率和长度因子作为音频特征。16类音效闭集分类实验结果中,系数张量特征能够达到82.2%的识别率。在开集确认实验中,该特征达到了20.4%的EER值。(4)针对传统的顺序音频检索方法计算量大的不足,提出了基于倒排索引的音频内容检索方法,包括音频内容分割,半监督音频字典训练以及相似度计算方法。首先探索了一种基于不相邻数据窗的噪音鲁棒快速说话人改变检测算法,并将该算法作为多层结构的音频内容分割算法的一部分。设计了一种半监督的字典训练方法,将分割后的音频片段转换为音频字。参考文本检索,提出了基于音频字的倒排索引结构。检索阶段,综合利用查询片段和候选段落之间内容上以及时序上的匹配进行结果排序。实验结果显示,查询样本时长为20秒时,本文检索方法的检索精确度达到95.68%,比顺序检索方法TAS和MOTS分别提升2.82%和1.37%,比基于词袋模型的算法提升18.77%,同时,所提出的算法用时分别只有上述算法的66.26%,35.50%和75.93%。