基于音频指纹的大规模移动音乐检索技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:a1133e43
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算和移动互联网的迅猛发展,移动多媒体应用特别是移动音乐应用变得越来越普及,同时,数字音乐内容也越来越丰富。如何在海量音乐数据中快速准确地找到用户感兴趣的歌曲成为移动音乐应用发展中亟待解决的关键问题,而大规模移动音乐检索技术正是解决这一问题的有效手段。  移动音乐检索是指将移动终端获取的真实世界中的音乐片段作为查询对象,通过移动互联网去搜索其关联信息的检索方式。  音频指纹是关于一段音频重要特征的紧致数字表达,它能在一定程度上反映音频的听觉质量,因此能用来有效地进行基于内容的音频检索。  本文围绕大规模移动音乐检索中的关键技术展开研究,主要取得了以下成果:  一,提出了一种基于频谱局部显著点的分段式音频指纹算法。首先,对实时流入的音频信号进行分段,接着估计此分段的帧移误差并作帧对齐处理,然后计算其频谱,接着在频谱上选择局部显著点,然后在一个划定的目标区域内组合这些局部显著点,从而得到当前分段上的指纹,再接着将当前分段上的显著点与前一分段上的显著点进行合适的拼接,形成新的指纹,最后合并两部分指纹经并经后处理形成最终具有紧致表达形式的指纹。实验结果表明:一方面通过帧对齐处理,能显著提高指纹对帧移误差的鲁棒性,与基于频谱峰的音频指纹算法相比,对帧移误差的鲁棒性最大提升了4.5倍;另一方面通过分段式指纹提取,能显著降低指纹粒度,即缩短平均检索时长,与不进行分段式指纹提取相比,将平均检索时长最大降低了近一半,而召回率只有不到4%的下降。  二,设计了一种面向音频检索的分布式并行索引。通过索引裁剪,即固定倒排表长度,按指纹区分性强弱依概率进行替换,这样在有限的内存空间下尽可能地保留了更多区分性强的指纹;通过索引分块,将大的索引划分成整齐的若干小块并加载到分布的多台计算节点中,加快了检索速度,提高了系统的扩展性。最后通过对不断增长的音乐曲库进行实时的增量索引更新,保证了索引的实时有效。  三,构建了一个完整的大规模移动音乐检索系统。该系统包括三部分:分布式检索引擎、互联网歌曲采集系统和移动客户端。其中分布式检索引擎加载了面向音频检索的分布式并行索引,提供检索匹配服务;互联网歌曲采集系统负责建立大规模的互联网音乐指纹数据库;移动客户端提供自然人机交互接口。系统在四十万规模的音乐曲库下进行了测试,测试结果表明在检索准确率、召回率、平均响应时间等指标上均能满足实际应用需要。
其他文献
进入21世纪,全球范围内的数据量呈爆炸性增长。分析调研机构IDC发布的报告显示,全球的数据总量每两年就会增加一倍。到2015年,数据量预计将会达到8000EB。  海量数据中,流数据
本文的主要工作是完成一套激光谐振腔损耗测试系统中系统测控软件部分的研制工作。该系统是一套集光机电一体化的多机构复杂系统,要同时实现自动聚焦、图像位置识别、损耗自
随着多媒体以及网络技术的发展,越来越多的企业使用网络会商系统。会商系统通过传输声音、视频、图像等信息,实现跨域沟通,能够为企业、公司提高办公效率、节约行政成本。但
标识密码技术是实现网络关键部分认证、授权机制,保障网络可控性,构建可信网络的重要手段。然而由于需要依靠第三方为用户生成私钥,使得标识密码技术存在与生俱来的密钥托管问题
该文详细介绍了系统的设计和实现过程.第一章对作者的问题进行了描述,并简要介绍了超大规模集成电路计算机辅助设计的概况,以及与作者的问题相关的子图同构问题和电路匹配问
随着移动设备的普及和多媒体技术的迅猛发展,人们日常生活中触手可及的多媒体数据呈现爆炸性增长。同时,新兴的交互式互联网技术的发展,使得这些数据有了一个整合的平台,从而形成
近年来,随着文本分析需求的增长,命名实体识别(Named Entity recognition,NER)研究蓬勃发展,命名实体识别任务的效果有了很大的提升,同时命名实体识别处理的文本类型和领域也越来
稀疏矩阵的应用领域广泛,典型的如网络分析、图论、解微分方程、社会关系分析、线性规划等领域。传统用于存储大型稀疏矩阵的通用存储结构主要有两种——行压缩存储格式CRS (
近年来,网络数据规模迅猛增长,网络数据的特点是来源多样,更新频繁,数据量大。网络数据中包含了大量的知识,这些知识是以实体为中心的,包括实体,实体间关系以及实体间关系的属性(如发
随着互联网的广泛应用,人们在享受信息资源所带来的巨大利益的同时,也面临着信息安全的严峻考验。互联网的迅速发展使得多方计算成为可能,随着合作计算与隐私保护越来越受到