快速近似近邻检索的哈希方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:afraidboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,过去的几年里,网络上的数据快速增长。对机器学习来说,大量的数据意味着可以训练更加复杂的模型,模型的泛化能力也得到提高,但同时,模型在训练和使用阶段的计算和时间代价使某些机器学习算法面临较大的可用性问题。特别的,KNN检索作为机器学习领域经常用到的一种基本算法,大规模数据集上简单的线性搜索会消耗大量时间。哈希算法作为最有效的近似近邻检索方法之一,能有效权衡检索速度和检索准确度,在过去几年时间里得到了国内外学者越来越多的关注。另一方面,网络上的很多对象同时包含多个模态进行展示,例如微博通常同时包括文本和图片,或者文本和视频。随着多模态数据的增多,在学术和工业上,跨模态检索逐渐成为一个新的需求。由于不同模态的数据往往有不同维度的特征,目前常用的方法是把不同模态的数据投影到同一个隐空间以消除不同模态之间的异构性,从而数据可以直接在隐空间中寻找近邻。在此基础上,跨模态哈希可以加快检索速度。本文的主要工作是无监督哈希算法和跨模态哈希算法的研究。由于二进制编码计算的高效性,使用哈希算法进行检索往往比线性搜索K近邻快数十甚至上百倍。本文主要进行了两方面的研究:1)一种欧几里得空间线性无监督哈希(USEH算法)。部分无监督哈希算法使用径向基核函数来度量欧几里得空间中数据样本之间的相似度,构造相似度矩阵。USEH算法也采用了相似的思路,以确保投影到海明空间后样本间的相似度保一致。但由于构造这样一个相似度矩阵占用的空间过大,USEH利用LSH向量来近似径向基函数的。具体的,USEH算法利用LSH从无监督数据集中生成伪标签信息,用标签矩阵和它转置的乘积来近似相似度矩阵,从而减少训练过程中占用的内存空间和训练时间。另外,由于哈希编码正交约束会导致较多的信息丢失,USEH算法使用顺序学习的策略逐个学习哈希函数,忽略正交约束以获取训练集数据更多的方差信息。随着哈希编码长度增加,相比于正交约束算法,USEH顺序学习方法的优势越来越明显。2)一种基于字典学习的跨模态检索哈希(DLCMH算法)。DLCMH算法把不同模态的数据投影到同一个海明空间,并假设同一个对象的不同模态数据有相同的哈希编码。通常情况下,同一个模态内样本特征之间的欧氏距离和语义相似度之间存在不一致的情况,而线性哈希投影矩阵很难纠正两者之间的偏差。为了使投影后数据间的距离和语义相似度更好的匹配,DLCMH算法引入了字典学习,通过字典表示来自动学习语义信息,然后用线性投影矩阵把数据的字典表示投影到海明空间。在目标函数优化阶段,DLCMH对哈希编码矩阵进行松弛使目标函数容易求导,并把较难求解的优化问题拆分成多个容易求解的子问题。为了验证上述两种算法的有效性,本文设计了几组实验,在多个公开的数据集上,分别把USEH算法、DLCMH算法与目前先进的几种无监督哈希算法、跨模态哈希算法进行比较。由于无监督哈希算法和跨模态哈希算法在机器学习、计算机视觉和信息检索等领域有广泛的应用,本文的研究内容具有较好的应用前景。
其他文献
全文信息检索技术是当前时代迅速获得准确信息的重要手段之一。在全文信息检索技术中最重要的部分是索引的管理。大数据时代,集中式的索引管理方式面临巨大挑战,最佳的解决方
面对越来越丰富的IT (Information Technology,信息技术)资源,越来越复杂的IT环境,无论企业还是政府的IT部门都开始广泛采用ITIL (Information Technology Infrastructure Li
随着无线通信技术的迅速发展,越来越多的人们希望提供无处不在的、高质量的无线通信,无线接入技术也得到了迅速的发展。无线MESH网络就是一种新型的宽带无线接入系统,是一种
长期以来,织物CAD技术一直是计算机在纺织领域中的一个重要应用与研究方向,织物CAD作为高新技术的手段为纺织品的设计和生产提供了很大的方便。织物的外观模拟在设计阶段就能
本文研究相关分析方法在异常检测中的应用,并将其应用于特征选择及地震特征数据的异常检测中。主要研究内容如下:提出了一种基于离散粒子群算法(Binary Particle Swarm Optim
计算机科学与技术的不断发展和计算机的广泛应用,促进了社会的进步和繁荣,给人类创造了巨大的财富。尤其是计算机网络的发展,日新月异,使信息共享广泛用于金融、贸易、商业、企业
当前国内的网络安全事件频频发生,垃圾邮件的泛滥成为其中显著的特点之一。传统的反垃圾邮件方法以基于内容的过滤为主,按照基于统计和基于规则划分为多种算法。但这些方法都
随着医学影像诊断技术的逐渐成熟,大量医学图像数据随之产生。这些海量图像的出现极大地丰富了医学工作者和科研人员的参考、教学和研究,然而怎样对如此大量的图像数据进行有
红眼是使用闪光灯拍摄照片时的常见现象。人类的瞳孔在环境光线不好的情况下会放大。在这种情况下使用闪光灯拍照时,人的瞳孔来不及收缩,光线直接穿过瞳孔照射在视网膜的微血
互联网技术的应用和普及把我们带到了网络信息的时代,用户在面临海量资源共享的同时对需要精确获取的信息反而束手无策。为了解决信息检索中难以满足个人独特需求的问题,个性