论文部分内容阅读
随着二十世纪信息技术、多媒体技术和网络技术的快速发展,多媒体信息的数据量急剧增多。为了充分利用已有的音频信息资源,音频样例检索技术受到越来越多的关注。音频样例检索是通过用户提交查询样例,然后从音频数据库中检索出具有相似内容的音频信息并反馈给用户实现的。在音频样例检索应用中,速度是重要的评价指标。为了提升音频样例检索的速度,本文对音频样例检索的索引方法展开研究,具体内容如下:(1) Philips方法的查全率难以满足检索应用的需求,其查全率与音频指纹的提取过程直接相关。Phililps方法的检索速度与音频库的规模相关,当音频库的规模较大时,检索的时间消耗会大幅度增加,检索的主要时间代价在于每次定位后都需要进行误码率计算。针对上述不足,给出了指纹提取过程优化和检索优化方法。(2) Philips方法利用能量特征进行二值量化,考虑到时域对不齐带来的不良影响,选用了大帧叠,小帧移,导致指纹提取的时间消耗过高。频谱质心是能量在频率上的加权均值,能够更好刻画频谱特性。利用频谱质心特征,提出了基于频谱质心的音频指纹索引方法(NSSCFP),通过小帧叠进行指纹提取,大幅度降低了指纹提取速度。(3)基于哈希表的音频索引方法是通过对音频信号提取二进制指纹序列实现的,表现出较好的性能和速度。现实中的音频数据容易受噪声等干扰,导致提取的音频指纹易发生畸变,需要近邻检索。而哈希表从结构上看,不适合近邻检索。针对上述不足,提出了基于m叉平衡树的音频索引方法,通过层节点扩展实现了近邻检索,有效提高了检索应用的性能和速度。