论文部分内容阅读
随着大数据时代的到来,互联网上的多媒体信息量呈爆炸式增长。传统的基于文本标注的检索已经不能满足人们对多媒体检索的需求。基于多媒体文件自身内容信息的检索已经成为近年来的研究热点,其中样例检索(Query-by-Example,QbE)具有使用方便、无需标注信息等特点。以音频为例,人们可以通过提交未知的音频片段来搜索数据库,从而获取该段音频的相关信息。Shazam音频检索是样例检索的一种重要形式,它具有体积小、检索速度快等优点。本文通过对传统Shazam音频检索算法进行改进,旨在提高用户检索的效率,主要工作如下:1、搭建基线音频检索系统。将音乐检索算法Shazam引入到基于语音的样例检索中,组成基于音频的样例检索基线系统,并对系统进行性能测试。2、系统优化。在检索匹配中去掉排序靠后的候选音频,取前TopN首音频分别求最大时间偏移量,降低系统的检索时间;基于索引空间交换时间的方法,探究了索引空间中重要参数对系统性能的影响,选取了最合适的参数构造索引空间,提升了系统的性能。3、提出了一种新的特征提取算法。原Shazam算法中特征提取是选取每一帧的能量峰值点作为特征点,而新的特征提取算法选取基于矩形区域中能量阈值点作为特征点。首先是在理论上分析了改进算法的可行性,然后分别通过纯净音频和室内噪声环境录制音频,进行两种算法的对比试验,验证了改进算法能够提取更具有代表性的特征点,降低系统的检索错误率。以8s音频片段为例,改进算法比原Shazam算法错误率相对降低55.3%。4、用C,Java编程语言,采用C/S模式,实现了APP客户端和服务器模式的音频样例检索系统。对系统的设计与实现做了具体的分析,对主要的模块进行了介绍,并对系统性能进行了测试。