论文部分内容阅读
由于图像、视频等多媒体数据检索技术相对于文本信息检索技术相对落后,多媒体数据的迅猛增长并没有带来多媒体数据应用的大量出现。事实上,现如今市场上的多媒体应用大多只是实现了数据的存储功能,对于数据的检索实际上只是在多媒体元数据上应用文本信息检索的技术。基于内容来管理和查询的多媒体应用屈指可数,如谷歌的“以图搜图”上线至今仅数年。直到目前为止,基于内容的音频数据检索仍是研究热点。与此同时,海量音频数据的可扩展存储同样是一个有价值的研究方向。由于这两个需求都是在互联网数据急剧膨胀的今天很现实的问题,本文对海量音频数据的管理——包括存储和查询——进行了研究,并实现了一个可用、可扩展、低延时的海量音频数据管理系统。首先,本文改进了HDFS的数据存储策略,使得系统中海量音频原始数据和特征数据的存储能够实现自动的负载均衡,且这种平衡状态不会随着系统规模的变动而被打破。再者,本文提出的针对高维音频特征数据的K-means+聚类算法,不仅有着良好的扩容比和收敛速度,其聚类结果在一定程度上还能反映不同集群的音频特征在语义上的差异,从而为基于内容的音频查询提供索引支持。第三,本文提出的两步匹配策略,除了能够满足音频查询中唯一命中的常用需求,还能帮助找到和查询片段风格类似或不同版本的音频数据,且基于内容的音频查询在查全率、查准率以及响应时间上均有较好的表现。从实验结果来看,结合这些工作的成果实现的海量音频数据管理系统能够很好地完成音频的存储和查询工作。虽然音频特征提取是本系统其中一个不可或缺的环节,但由于这部分的研究属于音频处理领域,且缺乏对音频特征提取原理的认知并不影响系统对音频特征的处理和使用,因此这部分内容本文不会涉及太多。同时,本文主要关注的是基于内容的音频数据管理,因此在研究和实现的过程中并没有同时利用音频的元数据信息。这将是后续工作的一部分。