基于Shazam算法的音频样例检索技术研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:liongliong471
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,互联网上的多媒体信息量呈爆炸式增长。传统的基于文本标注的检索已经不能满足人们对多媒体检索的需求。基于多媒体文件自身内容信息的检索已经成为近年来的研究热点,其中样例检索(Query-by-Example,QbE)具有使用方便、无需标注信息等特点。以音频为例,人们可以通过提交未知的音频片段来搜索数据库,从而获取该段音频的相关信息。Shazam音频检索是样例检索的一种重要形式,它具有体积小、检索速度快等优点。本文通过对传统Shazam音频检索算法进行改进,旨在提高用户检索的效率,主要工作如下:1、搭建基线音频检索系统。将音乐检索算法Shazam引入到基于语音的样例检索中,组成基于音频的样例检索基线系统,并对系统进行性能测试。2、系统优化。在检索匹配中去掉排序靠后的候选音频,取前TopN首音频分别求最大时间偏移量,降低系统的检索时间;基于索引空间交换时间的方法,探究了索引空间中重要参数对系统性能的影响,选取了最合适的参数构造索引空间,提升了系统的性能。3、提出了一种新的特征提取算法。原Shazam算法中特征提取是选取每一帧的能量峰值点作为特征点,而新的特征提取算法选取基于矩形区域中能量阈值点作为特征点。首先是在理论上分析了改进算法的可行性,然后分别通过纯净音频和室内噪声环境录制音频,进行两种算法的对比试验,验证了改进算法能够提取更具有代表性的特征点,降低系统的检索错误率。以8s音频片段为例,改进算法比原Shazam算法错误率相对降低55.3%。4、用C,Java编程语言,采用C/S模式,实现了APP客户端和服务器模式的音频样例检索系统。对系统的设计与实现做了具体的分析,对主要的模块进行了介绍,并对系统性能进行了测试。
其他文献
目的探讨医联体复用器械同质化集中管理模式及实施效果。方法比较集中管理前后物品的清洗、包装、灭菌质量、成本支出及临床科室满意度。结果集中管理后,清洗、包装和灭菌合
YJ105A牵引电机机座的铸造生产难点在于材质要求极高,无论是抗拉强度或是低温冲击韧性的要求,均超出了GB和ISO标准的规定。通过选用优质原材料、合理选择化学成分、严格的球
以粉煤灰为原料,通过碱激发的方式制备了地质聚合物凝胶材料。研究了激发剂用量、养护温度、搅拌时间、养护时间对粉煤灰地质聚合物抗压强度的影响,并采用XRD、FTIR、SEM对样品
四川省作为中国西部地区第一经济大省,近年来,在利用外商直接投资(Foreign Direct Investment,以下简称FDI)的规模、质量和效益上都取得了显著的成效,但与东部及沿海地区相比
此文联系FSC、PSC检查中的实际情况,指出船舶应急消防泵目前存在的各种缺陷,分析了存在的原因,提出了应对的措施.
随着成人教育规模的扩大,其质量问题日益突出.文章具体分析了影响成人教育质量的诸多因素,并将这些因素归纳为指导思想不端正,缺少理念的引导,发展基础薄弱,教师素质偏低和经
以VaR作为保险公司整体风险的测度,建立均值-VaR模型,讨论保险公司最优投资策略的选择问题。为保证保险公司在投资期内的安全,引进一个安全投资比例,保险公司以安全投资比例
中国国内研究者从人类学、文学、语言学、艺术、民俗学等视角对日本猴文化进行了多元阐释,积累了可资借鉴的前期成果,但是相关研究在质和量上仍有拓展的余地,系统性研究阙如
高血压是一种由多病因诱发的疾病。其发病率高,常合并心、脑、肾等严重并发症,已成为威胁人类健康的重要疾病。本病的发病机理,尽管根据基本病因不同而有差异,但肾脏对体液
针对航空锂电池安全保障问题,提出了一种基于等效电路模型的锂电池工作特性分析方法.该方法通过PNGV等效电路处理,实现对航空锂电池物理反应过程的电路模拟,并基于此研究了航