论文部分内容阅读
随着互联网的发展以及多媒体技术的广泛应用,图像和视频等多媒体数据呈现快速增长趋势,其也为多媒体检索技术提出了严峻挑战。哈希算法将高维的浮点型图像特征映射为紧凑的二值编码,从而根据汉明距离查询近邻点,其具有检索速率快、存储空间占用小的优势。然而,当前哈希技术仍存在以下问题:(1)编码长度有限时汉明距离值数目较少;(2)检索结果中大量图像共享同汉明距离。针对以上问题,提出了数据统计查询自适应加权算法和乘积量化自适应加权重排序算法,主要贡献如下:1.提出数据统计查询自适应加权算法。为解决编码长度有限时汉明距离值数目较少的问题,提出为不同比特位分配不同的权重值,从而可根据加权汉明距离查询近邻点,距离值粒度更细、数目更多。为了更好地利用数据集原始特征信息,在二值化前获得数据集原始特征统计信息,能保留部分因二值化而丢失的信息,增大图像之间的区分性。因大量图像共享形相同的汉明距离,在使用数据集二值编码和查询向量二值编码计算权重值时,会有大量样本共享相同的权重值。为更好的利用查询向量的原始特征,使用查询向量原始特征计算权重值,保留了查询向量的差异性信息,提高了权重值的适应性,缓解了大量图像共享同一汉明距离的问题。2.提出乘积量化自适应加权重排序算法。为解决现有加权算法在每次查询中所有二值编码共享一组权重值,导致权重值准确度低的问题,提出为不同的数据集二值编码分配不同的权重值,能更好的区分共享相同汉明距离的二值编码,检索准确性更高。为解决存储空间占用较大的问题,利用乘积量化的思想,将数据集分割为若干子空间,在每个子空间内提取其统计信息,通过规模较小的子数据集统计信息的笛卡尔积获得规模较大的数据集统计信息。将二值编码、查询向量分割为子二值编码、子查询向量,使用子二值编码、子数据集统计信息和子查询向量构建子权重值,使用子权重值的笛卡尔积得到权重值。使用规模较小的数据聚类中心代替规模较大的数据集样本,提高了算法的时间效率。在GIST和CIFAR10数据集上设置了近邻检索对比实验,实验结果表明数据统计查询自适应加权算法在近邻检索方面具有优异的性能;乘积量化自适应加权重排序算法有效解决了权重值数目较少问题。两种算法均有效提升了近邻检索性能,相对于现有加权算法有较优的性能。