面向多模态数据的无监督哈希检索方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:supphia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术和移动终端的快速发展,多模态数据呈现出了爆炸式的增长趋势。如何准确且高效地检索这些多模态数据,以满足用户日益复杂的多模态检索需求,变成了一个重要挑战。无监督哈希技术具有良好的扩展性、低存储空间和高检索效率,它可以有效地用来支持大规模多模态数据的检索。现有的面向多模态数据的无监督哈希方法主要包括无监督跨模态哈希和无监督多模态哈希两种。无监督多模态哈希利用多模态数据之间的互补性信息,将它们融合为统一的哈希码来更综合地表示每一个多媒体对象;无监督跨模态哈希通过学习一些哈希函数来将某一模态的数据映射为紧凑的哈希码,从而在数据库中检索出与之语义相似的其他模态数据。虽然面向多模态数据的无监督哈希学习方法取得了一定的进展,但它们仍存在一些亟待解决的重要问题:(1)现有的无监督多模态哈希方法都是采用矩阵分解的方式来学习哈希码,在聚合异构多模态特征方面的能力有限。另外,它们通过构造图的方式来建模语义相关性,这引入了较大的计算和空间开销。(2)现有无监督跨模态哈希方法在建模和保留多模态内在语义时,忽略了本体语义和关联语义之间的联系,简单地将它们单独地保留到最终的哈希码中。另外,这些方法在学习哈希函数时没有把已经挖掘到的多模态语义保留到哈希函数中,降低了哈希函数的泛化性。本文提出了以下两个无监督哈希方法来分别解决这些问题:(1)本文提出一个高效的多模态离散张量分解哈希方法。具体地,该方法首先利用非线性映射来捕获每个模态特征中的非线性语义结构,再将它们堆叠为一个三维张量,然后利用Tucker2分解将它们分解为一个核张量和两个因子矩阵。与此同时,该方法通过将训练数据的非线性特征映射为它们对应的哈希码来学得一个哈希函数,实现对未知实例的大规模在线检索。为了减小模型的量化损失和计算代价,本文提出一个快速离散优化策略来直接生成离散的哈希码,减小了模型的量化损失。本文在三个常用的数据集上进行了大量的性能对比实验和消融实验,从不同角度验证了提出方法的优越性。(2)本文提出一个关联-本体重构跨模态哈希方法。具体地,该方法首先构造一个多模态协同图来有效地建模异构多模态数据之间的邻接关系,并且通过利用提出的关联语义重构和本体语义重构策略,分别将多模态内在语义保留到哈希码中。此外,该方法提出一个跨模态语义聚合模块来探索一个共享空间,通过增强异构模态之间的信息交互和挖掘它们之间的互补性信息,来生成判别性的特征表示。最后,与现有的方法不同的是,该方法提出一个关联-本体语义一致性哈希函数学习策略来将建模到的多模态内在语义保留到每个模态的深度哈希函数网络中。本文在三个常用的数据集上进行了大量的性能对比实验和消融实验,从不同角度验证了提出方法的优越性。
其他文献
“产出导向法”(POA)强调目的语产出在第二语言学习中的重要作用,采取以输出为驱动的教学起点,调动语言学习者的学习积极性,提升其课堂参与度。中文口语课堂的教学目标是培养学习者在真实、具体的中文口语交际情景或交际场景中运用中文进行倾听、理解和表达的能力。同时,作为主要的语言技能课之一,口语课要求学习者在课上多说多练,在反复练习中巩固所学中文知识,提高中文表达的流畅性与准确性。随着在线课堂教学在国际中
学位
国家形象是一国实力水平和现实影响力的综合体现,在疫情大背景下对外汉语教学在对于帮助外国人了解真实中国形象上发挥着无可替代的作用,阅读是对外汉语学习中的重要技能之一,对外汉语教学新态势让阅读在汉语教学应用中日益受到关注。因此,分级阅读理念推广下汉语分级读物的地位也越来越显著,从具有代表性的汉语分级读物入手,以读物里的中国形象作为研究切入点,这对于分级读物的编写、教学里中国形象的呈现、对外汉语阅读教学
学位
情绪与人们的认知、决策和生活状态息息相关,其产生涉及到大脑中不同脑区的信息交互。研究情绪的神经机制和情绪识别方法,一方面可以帮助计算机具有理解人类情绪的能力,使得当前的人机交互更加智能;另一方面,可以应用于抑郁症等精神类疾病的辅助诊断和治疗等。然而,基于脑电信号(EEG)的情绪识别是一项复杂的任务,难以通过单一维度的特征来获得较好的情绪识别效果,因此需要提取最能够表征情绪状态的特征并采用合适的融合
学位
小细胞肺癌(Small cell lung cancer,SCLC)是一种常见的高风险的肿瘤疾病,其死亡率高、发病率高,严重危害患者的身体健康,约占肺癌总数的15%-20%。SCLC具有侵袭性较高,快速生长、早期转移、耐药性强等特点。临床诊断中,现有SCLC的定位及分割多依赖于医生通过计算机断层扫描技术(Computed tomography,CT)诊断,需要较高的人工成本。临床治疗发现,多数病人
学位
随着无线电子技术与网络通讯技术的进步与发展,无线传感器网络通信技术已然成为当今世界一项必不可少的新兴技术,相关问题的研究受到越来越多研究者的关注。然而,在实际应用中,多数系统会出现未知扰动,同时受制于系统的传输能力和通信链路故障等因素,测量信息在传输过程中很容易丢失,从而造成估计器估计性能的下降。针对无线传感器网络中含丢包和未知输入的状态估计问题,本文提出了两种不同情况下的含未知输入与丢包现象的分
学位
目的:本研究旨在探讨白介素17(IL-17)及白介素6(IL-6)与胆囊结石形成的作用及相关性。方法:回顾性的分析新疆维吾尔自治区人民医院2019年12月至2022年1月明确诊断为胆囊结石并进行胆囊切除术的234例患者和与之相匹配的363例对照组的病历资料,分析白介素17(IL-17)及白介素6(IL-6)与临床病理特征之间的关系。结果:比较两组临床资料,结果显示胆囊结石患者的WBC、NEU、D-
学位
随着时代的发展和市场的需求,网络汉语教学的发展已成为语言教学中的一项重要内容,因此对口语教学中网络直播平台应用的研究显得非常重要。但在汉语中级口语教学中,网络直播平台的应用还处于探索阶段,尚未形成较为完善的教学模式。基于此,本文在总结前人成果的基础上,以钉钉网络直播平台为例,对汉语中级口语课中网络直播平台的应用情况进行了研究,主要研究内容如下:第一章为绪论。论文重点介绍了选题缘由与研究意义,选题的
学位
在互联网时代的发展中,多智能体系统已经成为被广泛研究的课题。正系统是一种特殊的动力学系统,并在许多领域中得到了广泛的应用。输入-状态稳定性理论在现代非线性控制理论发展中具有重要的地位,特别是在非线性系统的稳定性理论中。在现实生活中,多智能体系统存在干扰的现象虽然是很普遍的,但缺乏针对出现干扰现象时的正多智能体系统的状态一致性研究,于是本文针对非线性正多智能体系统,深入研究了在状态反馈与脉冲控制下的
学位
随着计算机视觉和互联网技术的不断发展,Logo检测技术在商业宣传、商标侵权检测和城市智能化交通等实际生活中的应用越来越广泛。在商业宣传领域,挖掘图片中的Logo信息进行品牌追踪,并通过分析用户对品牌的偏好进行个性化推荐,可以对品牌宣传起到巨大推动作用;在商标侵权检测领域,通过对Logo图像进行智能检索及识别,可以判定所申请的商标是否存在侵权情况,对产品Logo检测以判定产品是否为虚假产品,为知识产
学位
行人重识别是视频监控系统中的重要任务,旨在从跨区域的监控摄像头采集到的图像中检索出特定行人的所有图像或视频,实现目标行人重识别,并应用于安防建设、行人追踪和轨迹分析等相关任务中。由于巨大的研究和应用价值,行人重识别成为近年的研究热点。但摄像头分辨率和安装角度、行人行走姿势及光照差异等复杂因素,给行人重识别带来了挑战。本文基于深度特征嵌入对行人重识别进行研究,分别讨论了在可见光图像场景与在可见光和红
学位