论文部分内容阅读
互联网技术的发展和计算机处理能力的提高,使得我们面临着“信息海洋”的时代,尤其是对于音频信号这种非结构化数据的存储量越来越多,对其存储与管理的需求也越来越大。传统的基于文本的音频检索技术是指利用与音频内容相关的文本关键词作为查询输入,输出音频的完整信息。它需要人工对音频所表示的含义进行文本标注,存在主观性和不完整性,因此无法准确描述音频信息中所蕴含的丰富的语义信息及内容的感知信息,也不能够满足在海量音频数据的环境下对音频内容快速高效的检索要求。基于内容的音频检索是指通过对音频数据中的旋律、音调、响度等音频特征的详细分析,使与查询输入不同的音频数据具有不同的语义,而具有相同语义的音频在听觉感知上保持相似。不仅避免了基于文本检索的诸多弊端,也能够适应海量音频环境下的检索需求,成为很多国内外学者的研究重点和热点。本文在认真总结国内外学者研究成果的基础上,重点针对基于内容的音频检索相关技术进行了讨论,并在Philips指纹提取技术的基础上,重点围绕音频特征分类与索引技术进行了研究,对音频的相似度量方法进行了合理的选择,最后结合Filter-and-Refine框架模型在提高音频检索准确率的基础上,加快检索速度,同时能够支持实时音频检索。实现了在普通配置的PC机上从13W条音频库中进行音频片段检索的平均速度在1s内,检索召回率达到95%以上,检索准确率达到97%以上,对于互联网时代下的音频数据访问服务有重大意义。本文的主要工作及研究成果如下:1.对音频信号的基本数字特征做了简要阐述,重点对本文用到的帧特征和段特征分别进行了说明,选取了Philips指纹提取技术作为研究基础,结合ABV算法设计并实现了对音频指纹的压缩和分类,能够在短时间内对不相关的音频进行快速过滤处理,减少了匹配计算量。2.对FNV的哈希算法进行改进,使用混合哈希算法对提取的音频指纹建立哈希索引表,使得其对音频指纹的散列分布性好,抗冲突性强,计算效率高。3.结合Filter-and-Refine框架实现了层级过滤音频检索系统,加快了过滤速度,提高了匹配效率。