论文部分内容阅读
机器听觉包括三大研究领域:语音信号处理与识别、一般音频信号分析、基于内容的音频检索。其中,语音信号处理与识别是一个传统的研究热点,随着音频数据的海量增长以及语音识别技术的相对稳定和成熟,音频检索逐渐成为了信息检索领域内的一个新的研究热点。音频检索研究如何从大量音频信息中快速准确地检索满足要求的音频数据。与语音识别技术相比,音频检索处理的数据是更一般的波形声音信号(包括语音和音乐),其研究成果可广泛地应用于远程教学、卫生医疗、数字图书馆、环境监测、新闻和娱乐节目的索引与标记等领域。本学位论文研究了利用图像配准方法的音频数据快速检索算法,简称FAR(Fast Audio Retrieval)。首先,采用音频处理中的短时分析技术将音频数据划分成一个个短时帧,并提取其MFCC特征参数;其次,将音频短时帧的特征参数MFCC转换为二值图像;最后,采用图像配准的方法对测试模板和参考模板的MFCC特征参数进行模板匹配,计算两个模板之间的匹配程度,并将该结果作为两个模板间的相似性测度输出。实验表明,利用图像配准方法的音频数据快速检索算法与基于DTW算法的音频检索算法相比,在检索的召回率、准确率以及F-指标等方面都有较大的改善,而且采用了图像配准的方法,算法的执行效率也优越于DTW方法。因此,本学位论文提出的FAR算法可用于基于内容和语义的音频检索技术中。