论文部分内容阅读
互联网、多媒体技术的快速发展,使得数据呈现出爆炸式的增长,数据的模态也更加多样化,文本、图像、音频、视频等多种形式的数据都包含着丰富的信息。如何高效的管理和运用信息资源,挖掘出有价值的信息内容,推动社会进一步发展,成为了广泛关注的问题。基于哈希的最近邻搜索技术,由于其计算速度快,占用存储空间小等优点,为高效管理和运用大规模信息资源提供了有效方法,受到了国内外研究学者的关注。目前,基于哈希的最近邻搜索技术大多采用批处理模式进行哈希学习。批处理模式的哈希学习方法存在的问题是,当系统获得与历史数据特征不一致,或者分布不一致的新数据时,如果不进行哈希函数的更新,则哈希函数无法学习到新数据的特征,导致搜索精度下降;如果进行哈希函数的更新,则需要将新数据和历史数据全部重新训练,造成较大的计算和存储开销。针对上述问题,本文提出了基于矩阵分解的在线哈希最近邻搜索方法,使得哈希函数根据新数据进行模型增量更新,无需存储大量历史数据,有效降低了最近邻搜索任务的计算和存储开销,提高了搜索精度。主要研究内容概括如下:(1)针对采用批处理模式学习的哈希方法存在的问题,本文提出一种基于矩阵分解的单模态在线哈希方法。当获取新数据信息时,该方法将新数据的特征矩阵进行矩阵分解,同时应用投影矩阵将其映射到低维空间,采用Frobenius范数衡量投影和矩阵分解造成的误差,进行目标函数优化,更新当前哈希函数,存储当前数据对应的矩阵计算结果用于下次模型更新。该方法在进行哈希学习的过程中,只需要存储历史数据的计算结果用于更新模型,无需存储大量的历史数据。基准数据集上的最近邻搜索实验结果表明,本文提出的基于矩阵分解的单模态在线哈希方法,与现有的单模态非在线哈希方法和单模态在线哈希方法相比,均具有较高的搜索精度。(2)为了解决跨模态搜索任务中哈希函数的在线更新问题,本文提出了一种基于矩阵分解的跨模态在线哈希方法。当获取新数据信息时,该方法将不同模态的成对数据映射到相同的潜在语义空间,采用交替迭代优化方法对目标函数进行优化,得到投影矩阵以及低维系数表示矩阵。通过量化系数表示矩阵,得到哈希编码,并存储当前数据的计算结果矩阵用于下一轮的模型更新。基准数据集上的实验结果表明,该方法随着数据量的积累,搜索精度逐渐提高,并较现有的跨模态非在线哈希方法和跨模态在线哈希方法均具有更高的搜索精度。(3)提出一种针对上述基于矩阵分解的在线哈希的高效优化方法。上述两种哈希方法中的在线哈希学习过程均采用交替迭代法进行目标函数优化。交替迭代法优化方法存在的问题是:在优化过程中迭代次数较多,降低了在线更新哈希模型的效率。针对此问题,本文提出了一种近似牛顿方法对目标函数进行优化。该方法在优化过程中,运用牛顿法计算牛顿方向,确定每次的函数下降方向,为了简化海森矩阵求逆的过程,采用对角近似法求解海森矩阵的逆矩阵的近似值。将该优化方法应用于本文提出的两种在线哈希方法中,并与采用交替迭代法优化的方法进行对比实验,可以验证该方法在保证搜索精度的同时,有效降低了优化过程的迭代次数,提高了基于矩阵分解的在线哈希方法的计算效率。综上,本文从单模态数据和多模态数据两个方面,分别提出了基于矩阵分解的在线哈希最近邻搜索方法,有效降低了批处理模式的哈希方法在进行模型更新时存在的存储压力和计算开销。为了减少在线哈希函数优化过程的迭代次数,本文提出一种在线哈希高效优化方法,进一步提升了基于矩阵分解的在线哈希模型的计算效率。实验结果表明了所提出方法的可行性和相对于现有方法的优越性。