论文部分内容阅读
基于内容的多媒体检索都面临着高维索引体系构建的问题,空间访问方法的索引存在“维度灾难”问题;度量访问方法的索引被应用得最多,它能够为系统建立高性能的索引数据库。HCT(Hierarchical Cellular Tree)是一种基于度量访问方法的动态生长的索引树,它提供了一种支持快速检索的数据组织方式,针对不同的数据对象,在应用HCT时要根据不同需求对索引片段的结构和距离计算公式进行设计。另外,现有的很多检索系统,对音频的检索并没有重视音频的时序信息,影响了检索结果的准确率。针对以上问题,本文设计了一种基于度量访问方法的HCT索引树的建立方法和检索方案,HCT索引树建立的主要时间开销在于特征向量的距离计算,本文通过LSH(Locality Sensitive Hashing)技术优化降低了该距离计算的时间成本,实验证明了该优化方法能做到快速检索和高准确率的统一。本文的主要工作如下:1、建立音频HCT索引。对音频进行静音分割,得到音频索引片段,提取片段相关特征参数构成特征向量,然后通过各维特征的均值和标准差把各维特征规整到均值为0,方差为1的分布中;构建音频HCT索引树的索引片段,使用欧式距离来描述两个索引片段之间的距离。2、采用LSH技术对HCT索引进行优化。针对高维特征向量的计算量大的问题,LSH技术把高维的特征向量映射到低维的整数空间,用更少的数据描述索引片段,片段之间距离的计算量得到很大程度的降低,从而使得检索时间得到很大程度的减少,索引建立和检索时间大约为优化前的五分之一。3、对输入的查询音频进行分段查询,本文提出一种基于综合评分的检索结果排序策略。分段的音频通过HCT快速检索得到候选索引片段集合,根据候选集合组成的时间序列,筛选出在时间上连续的片段组成候选目标结果,并对符合要求的目标结果进行评分来判断相关度,最终的目标结果按照相关度排序。该方法能很好适应查询音频时长不一的情况,TOP10平均检索命中率达到85%左右。4、完善多媒体查询系统的人机交互,提供友好的用户体验。检索系统基于B/S架构,支持本地上传示例和选择在线示例进行检索,支持检索目标自动定位播放,支持基于音频音效类型的视频内容浏览。