面向大规模跨模态检索的哈希方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:pp6vip123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着社交媒体网站的大量涌现,分布在互联网上的多媒体数据内容呈现出爆炸式的增长。为了更全面地挖掘多媒体数据,帮助用户从海量且杂乱的数据中获取有价值的信息,大规模跨模态检索的需求与日俱增。与传统的单一模态的检索相比,跨模态检索可以大幅提升用户体验且更符合现实应用场景。但是互联网上的多媒体数据具有数据量大、数据结构复杂、数据维数高的特点,以及不同模态之间存在异构鸿沟和语义鸿沟问题,这对大规模跨模态检索任务是一个巨大的挑战。哈希学习技术作为一种典型的近似最近邻搜索,由于低存储消耗和高效搜索得到越来越多的研究者关注。尽管跨模态哈希方法的研究已经取得了一些进展,但是仍存在许多需要解决的问题。1)如何实现多媒体不同模态哈希码的高效离散优化。一些方法在求解哈希码的离散约束时采用松弛策略,导致较大的量化误差问题和低质量的哈希码,不能很好地解决跨模态检索的异构鸿沟问题。而另外一些离散优化算法采用复杂的梯度下降或按位优化策略,学习效率非常低。2)如何充分地挖掘异构的多媒体数据中蕴含的大量信息。在对数据信息的利用上,一些方法只考虑数据的全局信息,忽略了隐藏在数据分布中的局部相似性,使得检索结果不够精细。3)如何实现哈希码对精细相似度的保持。现有的哈希方法通常将二值相似度嵌入到哈希码中,这种二值相似度损失了大量的语义和特征信息,并且存在平方复杂度问题。此外,在对相似性保持问题上,传统朴素二进制哈希码的表达能力受哈希码长度的限制,不能充分拟合多媒体数据的相似性信息。4)如何实现高效的在线多媒体数据流学习。越来越多的应用场景中,多媒体数据是以数据流的形式收集的,传统的跨模态哈希方法基于批处理的方式学习不同模态的哈希码和哈希函数,学习效率非常低效,不能很好地适应在线跨媒体检索任务。
  本论文对面向大规模跨模态检索的哈希方法进行了深入研究,针对上述问题设计了四种监督跨模态哈希方法。主要贡献如下:
  (1)针对已有跨模态哈希方法的较大量化误差问题以及对大数据不可扩展问题,提出一种可扩展非对称离散跨模态哈希方法。应用距离-距离差异最小化将多媒体数据的监督信息嵌入到哈希码中,避免应用二值相似度矩阵,降低了时空开销,使模型对大规模多媒体数据集是可扩展的。语义标签是所有模态中最一致的信息,将其作为一个特殊模态,应用协同矩阵分解学习它与不同模态数据的公共潜在子空间,并通过非对称策略将哈希码与子空间建立连接,将更多的信息传递到哈希码中。还提出了一种高效的非对称离散优化算法求解哈希码的二值约束,避免了较大量化误差问题,保证了哈希码的质量。
  (2)为了更充分地挖掘多媒体数据中的信息,提出一种全局和局部相似性嵌入的快速跨模态哈希方法。它不仅考虑异构数据的全局相似性信息,还挖掘数据的组内局部相似性信息,能够从视觉上使检索结果更精细。为了更好地利用监督信息,设计了一个包含成对相似度保持和相关类别重构的相似性嵌入框架,从两个角度保持监督信息,可以得到更具判别力的哈希码。还提出了一种高效的组更新离散优化算法,使其计算复杂度与训练集的大小呈线性关系,对大规模多媒体数据的扩展性大大提高。
  (3)针对哈希码的精细相似度保持问题,提出一种高维稀疏跨模态哈希方法。从理论上分析并设计一个细粒度相似度,不仅考虑数据的高层语义相似性,还合理地考虑多媒体不同模态的底层特征相似性。由于朴素哈希码的表达能力较弱,不能很好地拟合细粒度相似性,利用高维稀疏编码的强表达能力将细粒度相似性嵌入到待学习的哈希码中。还设计了一种高效的离散优化算法来解决哈希码的二进制和稀疏约束,降低了量化误差。最重要的是,模型的搜索复杂度与朴素哈希方法一样高效。在三个广泛使用的数据集上进行的大量实验表明本文的高维稀疏跨模态哈希模型是非常有效和高效的。
  (4)针对在线多媒体数据流检索场景,提出一种标签嵌入在线跨模态哈希方法。设计了一个标签嵌入框架来利用多媒体数据的监督信息,可以生成高判别性的哈希码,降低计算复杂度。通过块相似度矩阵的内积适应,保持新来数据的成对相似性,并且建立新来数据与已有数据之间的联系,使模型对新来数据的敏感性降低,从而得到高效的哈希码。此外,还设计了一种离散优化算法,在不松弛的情况下求解哈希码的二进制约束问题,可以降低量化误差,并且它的计算复杂度只与新来数据的大小线性相关,对大规模多媒体数据集是非常高效和扩展的。在三个基准数据集上的大量实验结果表明本文的模型在准确性和效率方面优于一些最先进的离线和在线跨模态哈希方法。
其他文献
在用户历史交互记录中,蕴含着丰富的映射用户潜在兴趣偏好的信息,这些信息可以帮助推荐系统建模,从而向用户推荐他们潜在兴趣的内容或商品,在电子商务领域中扮演着重要的角色。这种方式不仅方便用户以更高效、快捷的方式获取有利信息或商品,而且电子商务平台也可以通过推荐系统的技术,主动地将产品或者服务准确地投放给目标用户,以便他们获取更高的利润。由于用户的个性化商品推荐与人们日常生活息息相关,所以越来越多的研究
图像超分辨率重建是深度学习的重要分支,受到越来越多科研人员的关注。目前,图像超分辨率重建方法以深度学习为基础在图像的定性和定量上取得了突破性的发展。为了提高图像的重建质量,现有的基于深度学习的图像超分辨方法一般都是通过增加网络模型的深度提高图像的重建质量。但是,实验也表明随着网络模型深度的增加,图像过渡平滑现象会越来越严重。除此之外,由于自然场景下真实低分辨率图像受到天气、噪声和模糊度等因素的影响
现有的图像修复方法,主要针对自然场景、建筑物等图像,对于人脸图像的修复并没有过多的深入研究。自然条件下的人脸图像的修复,会随着人脸姿势、遮挡、表情等因素而造成修复结果产生偏差,比如出现边界区域模糊、结构不连贯等问题。本课题着重关于人脸图像的修复展开研究,提出了基于人脸结构特征先验引导的图像修复算法,该算法通过在残缺人脸图像中使用卷积神经网络提取人脸结构潜在信息,然后通过人脸结构条件约束和重建隐藏层
学位
电商平台和网络社交媒体的快速发展,让我们的生活更加丰富多彩,获取信息也更加方便,但是随之而来的是信息过载给我们上网所带来的巨大影响。而推荐系统则在一定程度上减轻了目前信息爆炸的问题,也可以有效的帮助人们更加迅速的寻觅到他们所需的信息。但是,数据稀疏和冷启动等问题会对推荐的质量造成较大的影响,如何克服这两个问题也成为了诸多学者研究的目标。已有研究表明利用信任信息可以在一定程度上解决数据稀疏和冷启动的
随着云计算、大数据及网络等技术的快速发展,社会进入了信息化时代,各种信息系统成为人们日常生活的基础设施,人们的工作、学习、生活无不严重依赖于网络,信息安全日益成为焦点问题。密码学是信息安全的核心与支撑性技术,密码技术的应用对社会信息化的健康发展具有不可替代的作用。  信息化时代,数据规模不断扩大,巨大用户数量、海量数据规模、高并发处理性能,都对密码运算的加解密速度、数字签名和验证速度等性能指标提出
学位
估计图像中物体的三维位姿(位置和朝向)是计算机视觉领域的基本问题,在增强现实领域起着非常核心的作用。在增强现实环境中,系统需要实时跟踪现实世界中特定物体的位姿,才能保证渲染的虚拟物体与现实物体保持几何一致性。基于视觉的三维物体跟踪方法是实现连续跟踪物体位姿的关键技术,由于其具有非侵入式、准确和廉价的优点得到快速发展。随着智能移动设备的普及和其计算能力的提升,基于单目彩色相机的三维物体跟踪方法成为研
学位
激活函数作用是引入非线性到神经网络中,使神经网络可以更好地学习复杂的非线性函数,这是神经网络解决非线性问题的核心。激活函数的选取对于整个神经网络的训练起到十分重要的作用,如何选取激活函数会影响网络训练的时间和准确率。在现实处理器中,选取适当的非线性激活函数可以提高训练准确性,但是非线性激活函数的计算往往会消耗很大的运算周期。软件实现造成的延时会影响整个网络的训练效果,硬件层次的实现降低延迟同时存在
近年来,复杂网络研究引起了广泛的关注。现实生活中的许多基础设施都可以建模为复杂网络,如供电网络、交通网络和互联网等。大部分复杂网络并非是随机网络,而是呈现出一种特殊的结构。无标度网络就是一种特殊形态的复杂网络,它表现为少数的重要节点拥有大量的连接,而新加入的节点也会以较大概率连接到这些重要节点上。无标度网络因其“重尾”特性而表现得十分脆弱,因此会不可避免地出现各种故障。网络鲁棒性就是用来评估网络对
随着基本通信网络的发展,越来越多的物联网设备需要与用户进行交互。另一方面,由于物联网中的设备计算性能,内存存储性能和网络带宽资源都有限,所以提出MQTT的基于发布/订阅的轻量级数据传输协议,同时近几年随着物联网的发展,MQTT协议也被越来越多的用到物联网系统中,因此使用MQTT的进行传送的数据的安全性也被越来越多的讨论。  本文中提出了两个关于MQTT协议的安全性的相关方案,第一个方案基于物联网设
学位