论文部分内容阅读
随着多媒体技术、数据压缩技术以及互联网技术的日益发展,海量的多媒体信息出现在我们的生活当中。依靠人们掌握的关键信息(如音频文件的标题、作者、出版时间、关键词等)来从众多的音频文件中快速而准确的找到目标音频(即所需要的音频文件)正变的越来越困难。基于内容的音频指纹索引方式无需关键信息,完全依赖于音频内容本身,并且索引出的候选结果少,它正逐渐在音频检索、音频识别、音频内容完整性校验等领域发挥着重要作用。目前的相关研究主要集中在非压缩域音频指纹索引理论和技术,鲜有关于压缩域音频指纹的研究文献,且甚少涉及指纹算法的鲁棒性测试和改进。本文首先介绍了音频指纹索引技术的研究背景和意义,从音频指纹的多样性和鲁棒性、压缩域音频指纹以及音频指纹快速索引算法等多个角度综述了国内外的研究现状;接着对压缩域音频指纹涉及的相关原理知识进行了归纳。从实际应用出发,在分析和研究了压缩域音频特征的基础上,提出了压缩域音频指纹算法,该算法根据解压过程中的MDCT频谱能量直接计算压缩域音频的指纹,无需对压缩域音频进行完全解码。考虑到目前的手持音频设备采集到的一般是非压缩音频,本文还设计了相应的非压缩域音频指纹算法,此算法参考标准的音频压缩流程,从PCM音频信号计算MDCT频谱,然后再计算指纹。这两种算法所生成的指纹可以在同一个音频指纹数据库中进行有效检索。对指纹算法的相似性、区分性、误码率和鲁棒性等技术特征进行了测试和分析,实验表明文中所述算法具有良好的性能,其正确识别率符合实际应用的要求。论文还从索引匹配的角度介绍了一种基于Hash模型的指纹快速索引算法。在对鲁棒性测试结果进行分析的基础上,本文刘线性速度变化这样一种常见的时域失真现象进行了鲁棒性改进研究。分别结合自相关函数的移位不变性和Fourier-Mellin变换的尺度不变性对本文算法的鲁棒性进行了优化设计。测试结果表明,基于相关函数的优化算法将抗线性速度变化的能力从±5%提高到±7%,而基于Fourier-Mellin变换的优化方案将抗线性速度变化的能力提高到±10%,并且两种优化算法均不影响算法对其它常见的时频域失真的鲁棒性。最后根据本文的指纹算法设计了一个简单的音频指纹识别系统,并对系统的性能和技术指标进行了测试和总结。