论文部分内容阅读
音频检索用查询音频在参考音频库中检索获取其属性信息,是音频应用的核心技术。在实际应用中,音频检索不仅要满足高效率检索的需求,还要实现干扰下对查询音频的准确检索。Philips指纹(Philips Fingerprint,PF)是一种经典的音频指纹化技术,可以抵抗多种干扰,与高效的检索技术适配可以实现鲁棒性与高效性兼备的音频检索,但Philips指纹不能抵抗线性变换类干扰,应用于音频检索时存在抗干扰能力缺陷。线性变换改变音频频率与播放速度。Philips指纹提取自音频频率经分割后的固定频率区间的信息,频率改变后提取的指纹依据的信息不同,导致指纹不一致。后续改进研究利用音频中的线性变换不变性信息提取指纹,取得的抗干扰能力较小。
如果能使Philips指纹抵抗大范围的线性变换干扰,保证其适配的高效检索技术仍然有效,就可以满足实际应用对音频检索技术的要求。本文以此为目标,发现以Philips指纹为基础的增强型采样计数方法(enhanced Sampling and Counting method,eSC)是目前抗干扰性好、检索效率高的音频检索方法,利用检索匹配策略,解决了Philips指纹不能抵抗时间延展干扰的问题。时间延展对音频的影响与线性变换中对音频播放速度的影响相同,eSC方法证明音频播放速度的改变与音频频率变化不同,对Philips指纹提取过程干扰较小,可以通过适配的检索过程解决。线性变换干扰对音频频率的影响与音调变换干扰对音频频率的影响效果一致。因此,本文提出可通过改进指纹提取方法解决干扰产生的音频频率变化,或采用抗音调变换干扰的指纹提取方法,适配抗时间延展干扰的检索方法,实现对线性变换干扰的鲁棒。
本文通过分析eSC利用Philips指纹特性抵抗时间延展干扰的方法,提出联合处理框架对线性变换干扰施行分步处理,将线性变换干扰视为音调变换干扰与时间延展干扰的叠加,在指纹提取阶段通过改进的指纹提取方法消除音调变换干扰,在指纹检索阶段利用eSC检索方法,完成时间延展干扰下指纹的正确检索。
为消除音调变换干扰对指纹提取阶段的影响,本文提出一种基于峰值点的Philips指纹提取方法(Peak-based Philips Fingerprint,PPF),利用动态能量段计算方法消除音调变换干扰造成的频率变化,并使用局部能量段提取连续指纹方法保留Philips指纹特性,以抵抗时间延展干扰。实验结果表明,PPF可以抵抗70%-130%范围的音调变换干扰与时间延展干扰,同时对其它干扰鲁棒,PPF与eSC方法在联合处理框架下结合可以抵抗70%-130%范围的线性变换干扰,填补了Philips类指纹不能抵抗大范围线性变换干扰的空白,且检索效率优于其它研究,完善了音频检索技术对鲁棒性与检索效率的要求。
如果能使Philips指纹抵抗大范围的线性变换干扰,保证其适配的高效检索技术仍然有效,就可以满足实际应用对音频检索技术的要求。本文以此为目标,发现以Philips指纹为基础的增强型采样计数方法(enhanced Sampling and Counting method,eSC)是目前抗干扰性好、检索效率高的音频检索方法,利用检索匹配策略,解决了Philips指纹不能抵抗时间延展干扰的问题。时间延展对音频的影响与线性变换中对音频播放速度的影响相同,eSC方法证明音频播放速度的改变与音频频率变化不同,对Philips指纹提取过程干扰较小,可以通过适配的检索过程解决。线性变换干扰对音频频率的影响与音调变换干扰对音频频率的影响效果一致。因此,本文提出可通过改进指纹提取方法解决干扰产生的音频频率变化,或采用抗音调变换干扰的指纹提取方法,适配抗时间延展干扰的检索方法,实现对线性变换干扰的鲁棒。
本文通过分析eSC利用Philips指纹特性抵抗时间延展干扰的方法,提出联合处理框架对线性变换干扰施行分步处理,将线性变换干扰视为音调变换干扰与时间延展干扰的叠加,在指纹提取阶段通过改进的指纹提取方法消除音调变换干扰,在指纹检索阶段利用eSC检索方法,完成时间延展干扰下指纹的正确检索。
为消除音调变换干扰对指纹提取阶段的影响,本文提出一种基于峰值点的Philips指纹提取方法(Peak-based Philips Fingerprint,PPF),利用动态能量段计算方法消除音调变换干扰造成的频率变化,并使用局部能量段提取连续指纹方法保留Philips指纹特性,以抵抗时间延展干扰。实验结果表明,PPF可以抵抗70%-130%范围的音调变换干扰与时间延展干扰,同时对其它干扰鲁棒,PPF与eSC方法在联合处理框架下结合可以抵抗70%-130%范围的线性变换干扰,填补了Philips类指纹不能抵抗大范围线性变换干扰的空白,且检索效率优于其它研究,完善了音频检索技术对鲁棒性与检索效率的要求。