论文部分内容阅读
爆炸性增长的多媒体数据给当前计算机系统的管理、运算和存储带来了极大的压力。面对海量的多媒体数据,实现对这些数据的有效存储、管理和利用已经成为机器学习和计算机视觉领域亟待解决的重要问题之一。检索是机器学习领域的一个基本应用,海量多媒体数据的高效检索对挖掘和利用多媒体数据资源具有极为重要的意义。面对图像、视频、音频、文本等种类丰富的海量多媒体数据,如何对其进行高效检索,成为了当前学术界和工业界炙手可热的研究内容。针对大规模多媒体数据,利用哈希学习生成哈希编码的数据表示方式能有效减少数据存储和计算过程中的开销,同时降低数据维度,提升大规模数据检索系统的效率。目前哈希学习的方法在多媒体信息检索领域的研究已经取得初步成效,然而哈希学习过程中原始空间样本相似性度量和相似性信息保持的方法仍然有待进一步研究,哈希方法的应用场景仍需要进一步探索。本文对基于图的哈希方法理论和其在多媒体数据检索中的应用展开研究,对有效保持原始空间样本间相似性结构的哈希方法进行了探索,同时对哈希方法的应用场景进行了拓展。本文主要工作如下:(1)对原始空间样本间全局重构相似性进行研究,并利用其构建样本间全局相似性结构图,提出了全局相似性保持的哈希方法。该方法能够有效地挖掘样本间潜在的流形相似性结构,实现对原始空间样本间全局相似性的准确描述。除此之外该方法还提供从原始数据到哈希编码的直接映射,降低“两阶段”哈希编码框架下的降维误差和哈希编码量化损失,有效地将原始空间中样本间的全局相似性保持到汉明空间。实验结果表明,该方法可以有效地描述原始空间样本间的潜在流形相似性结构,并将这种结构保持到汉明空间,生成反映原始空间样本间相似性结构的哈希编码。(2)利用原始空间样本间的局部重构相似性和局部基于距离的几何结构(距离相似性)来实现对原始数据样本间的相似性的准确描述,提出了局部拓扑结构保持的哈希方法。该方法构建的图结构能够有效地提升对原始空间样本的局部相似性描述的准确性。该方法将分类算法引入到哈希映射学习的过程中,将哈希编码学习的过程和分类器训练过程相统一,实现从原始空间到汉明空间的显式映射,有效地将原始空间中样本间的局部相似性结构保持到汉明空间。实验结果证明该方法可以有效地生成保持原始空间样本间相似性结构的哈希编码。(3)对多特征、多模态情景下的哈希方法展开研究,利用监督信息构建样本间的判别相似性结构图,并以此为基础提出了判别比特选择哈希方法。不同于多特征、多模态情景下大部分哈希方法所选择的“融合+编码”的框架,判别比特选择哈希方法利用“编码+选择”的框架充分挖掘不同特征不同模态的数据信息,还有效利用现有的哈希方法,提升现有哈希方法的利用率。判别比特选择哈希方法利用监督信息构建比特选择标准,同时利用ADMM算法克服哈希编码选择过程中离散性约束带来的求解困难问题,提升哈希编码选择的效果,将能够充分保持样本间相似性的编码选取出来。利用哈希编码运算速率快的特性,本文还进一步地提出了面向多模态数据的目标识别框架——“哈希+近似近邻投票”,有效利用样本间的相似性信息进行目标识别,提升多模态数据环境下目标识别的效率。实验结果证明判别比特选择哈希方法能够有效选择保持样本间相似性的哈希编码,“哈希+近似近邻投票”的框架能够实现多模态数据环境下目标的高效准确识别。(4)对基于图的哈希方法在人体运动时间序列的分割和检索中的应用展开研究。人体运动序列作为多媒体数据的集中表现形式之一,对其进行语义化检索的基础任务之一就是进行有效地分割。为了实现人体运动时间序列的高效分割,本文提出了基于哈希方法的层次人体运动序列分割框架。该框架首先对人体运动序列动作变化程度展开研究,实现对人体运动时间序列的初步分割。在此基础上,不仅考虑人体运动时间序列某一时刻动作的变化程度,更对人体运动时间序列动作变化过程展开研究,利用哈希方法将人体运动过程转化为状态变化的过程,并对同一类别动作的内部相关性展开描述,有效减少人体运动序列分割过程中的过度分割。在分割的基础上,本文针对人体运动序列检索展开研究,利用哈希方法实现人体运动序列关键帧的提取,提升基于哈希方法的人体运动序列检索的效果。实验结果证明基于哈希方法的层次人体运动序列分割框架的有效性,及基于哈希方法的人体运动序列检索的效果。综上所述,本文主要针对基于图的哈希方法及其在多媒体数据检索中的应用展开研究,提出3种基于图的哈希方法并对基于图的哈希方法在图像检索、人体运动序列分割与检索等实际应用中的情况进行了研究和分析。实验结果表明本文所提算法的有效性及其对比现有算法的优越性。