论文部分内容阅读
音频指纹是指从一段音频采样中提取的独特的信息,可以用于辨识不同的声音采样,是一项基于内容的识别技术。从相同采样不同编码格式的音频文件提取的音频指纹信息是相似的。
以音频文件为例,即使其中的文本信息(例如文件名等)改变了,或者文件稍微改动,甚至文件经过解码再编码,只要音频内容总体不变,那么从这文件提取出来的音频指纹信息是相似的。
基于这个音频指纹信息,可以辨别音频内容基本相同,但文件不完全相同的音频文件。
音频指纹技术主要有两方面应用:提供一种新的辨别音频文件的方法;商业用途广泛,例如:盗版监控等。
本文工作成果:
提出了创建音频指纹数据库,以及音频指纹检索的流程。
基于开源项目FFmpeg,根据本项目实际需求实现了一个解码器。
基于开源项目foosic,根据本项目实际需求实现了音频指纹提取算法。
提出了一种新的音频指纹检索策略。在音频指纹检索模块中,提出并实现了一种新的音频指纹数据处理算法:求和算法。完成了一个具有实际应用价值的音频指纹检索系统。
本检索系统的功能:用户输入一个歌曲片段,在支持的范围内,无论其编码格式或采样率为何种形式,系统都能够通过查找近似音频指纹来找到该歌曲的相关信息。
本系统有137346首歌曲数据。能支持wav, mp3,wma三种编码格式。
本系统与foosic开源项目的系统做了一个对比测试。实验结果表明,在以foosic系统性能参数为100%的情况下,本文系统仅需3.72%的时间(约88ms),而达到95.92%(相对于foosic算法)的检索正确率(约91%)。